Caso · cin-cluster-inferenciaRevisão · 2026-06-15 03:56 UTC
idea·waddle
Caixa morfológica viva — análise colaborativa entre humanos e agentes, versionada sobre Git.
12parâmetros
2,099,520config. totais
10restrições
933,120config. viáveis
44.4%espaço de solução
Leitura da configuração
atualiza com a seleção ↓
Selecione opções na caixa abaixo para estimar custo, potência e energia.
Valores são placeholders a refinar — premissas em
assumptions.yaml, dados por opção em params/*.yaml. Tratar como ordem de grandeza.
Caixa morfológica
Clique numa célula por linha para montar uma configuração. Opções
incompatíveis com a seleção ficam bloqueadas; as de
alerta seguem disponíveis. Cada escolha revela comentário, proveniência e caminhos de restrição.
Hardware de aceleraçãoQue acelerador(es) formam a base do cluster de inferência.
NVIDIA H100 / H200 (data center, topo)agent:discovery · claude-opus-4-8
NVIDIA L40S / RTX 6000 Ada (custo-benefício)agent:discovery · claude-opus-4-8
Prazo até produçãoqualitative · maximize · 1-5 (maior = entra em produção mais rápido) Captura prazo de compra, integração, implantação e governança.
Elasticidade de capacidadequalitative · maximize · 1-5 (maior = absorve melhor picos e contingência) Captura a capacidade de crescer ou absorver pico sem sobredimensionar o cluster local.
Soberania (dados/fornecimento)qualitative · maximize · 1-5 (maior = mais soberano) Elo mais fraco define o conjunto (min).
Baixo risco de fornecimentoqualitative · maximize · 1-5 (maior = menor risco)
Sustentabilidade / eficiência energéticaqualitative · maximize · 1-5 (maior = mais sustentável) Proposto por agent:revisor-2 (perspectiva diversa simulada).
Custo operacional anual (R$/ano)quantitative · minimize · R$/ano ≈ energia anual + staff/ano + manutenção. Ver métrica opex_anual.
Premissas (placeholders, em assumptions.yaml): tarifa R$ 0.95/kWh · 720 h/mês · PUE 1.5
Matriz QOC opções × critérios
Hardware de aceleração
Prazo
Elasticid.
Soberania
Risco forn.
Suporte
Sustent.
NVIDIA H100 / H200 (data center, topo)
·
·
2
3
5
3
NVIDIA L40S / RTX 6000 Ada (custo-benefício)
·
·
2
4
5
4
AMD Instinct MI300X
·
·
2
3
3
2
Huawei Ascend 910B
·
·
3
2
2
3
GPUs de consumo / refurbished (RTX 4090/5090)
·
·
2
3
2
2
Origem de fornecimento
Prazo
Elasticid.
Soberania
Risco forn.
Suporte
Sustent.
Mercado americano (NVIDIA/AMD via distribuidor)
·
·
2
3
5
·
Mercado chinês (Huawei/Biren)
·
·
3
2
2
·
Parceria / doação de fabricante ou nuvem
·
·
3
3
3
·
Software de serving (inferência)
Prazo
Elasticid.
Soberania
Risco forn.
Suporte
Sustent.
vLLM
·
·
·
·
4
·
SGLang
·
·
·
·
3
·
TensorRT-LLM
·
·
·
·
5
·
Ollama
·
·
·
·
4
·
Escala inicial
Prazo
Elasticid.
Soberania
Risco forn.
Suporte
Sustent.
Nó único multi-GPU (4–8 GPUs)
5
2
·
·
·
·
Cluster pequeno (2–4 nós)
3
3
·
·
·
·
Cluster médio (8+ nós)
1
4
·
·
·
·
Interconexão de rede
Prazo
Elasticid.
Soberania
Risco forn.
Suporte
Sustent.
Ethernet (100GbE)
·
·
·
·
4
·
RoCE (RDMA over Converged Ethernet)
·
·
·
·
3
·
InfiniBand (NDR/HDR)
·
·
·
·
4
·
Modelo de acesso da comunidade
Prazo
Elasticid.
Soberania
Risco forn.
Suporte
Sustent.
API compatível com OpenAI (interna)
·
·
·
·
·
·
Interface web de chat
·
·
·
·
·
·
API + chat (ambos)
·
·
·
·
·
·
Refrigeração / energia
Prazo
Elasticid.
Soberania
Risco forn.
Suporte
Sustent.
Ar (CRAC/CRAH)
5
·
·
·
5
2
Líquido direto ao chip (DLC)
3
·
·
·
4
4
Imersão
1
·
·
·
3
5
Armazenamento
Prazo
Elasticid.
Soberania
Risco forn.
Suporte
Sustent.
NAS / NFS (SSD)
·
·
·
·
5
·
Sistema de arquivos paralelo (Lustre/BeeGFS)
·
·
·
·
4
·
Object storage (S3/MinIO)
·
·
·
·
4
·
Modelos de LLM a servir
Prazo
Elasticid.
Soberania
Risco forn.
Suporte
Sustent.
Llama (Meta, aberto)
·
·
4
·
·
·
Qwen / DeepSeek (abertos, China)
·
·
4
·
·
·
Mistral (aberto, Europa)
·
·
4
·
·
·
Portfólio diverso (múltiplas famílias)
·
·
5
·
·
·
Políticas de uso / cota
Prazo
Elasticid.
Soberania
Risco forn.
Suporte
Sustent.
Aberto a todos com cota individual
·
·
·
·
·
·
Alocação por laboratório/projeto
·
·
·
·
·
·
Fila com prioridade p/ pesquisa
·
·
·
·
·
·
Estratégia de provisão de capacidade
Prazo
Elasticid.
Soberania
Risco forn.
Suporte
Sustent.
Capacidade 100% local (on-prem)
3
2
5
4
3
·
Local + federação com o Apuana para overflow não interativo
4
3
5
4
3
·
Local + cloud burst contratual
5
5
2
3
4
·
100% nuvem (inferência como serviço)
5
5
1
4
5
·
Operações / staffing
Prazo
Elasticid.
Soberania
Risco forn.
Suporte
Sustent.
Autogestão pelos laboratórios
·
·
·
2
2
·
Técnico/analista dedicado (CLT/terceiro)
·
·
·
4
5
·
Serviço gerido (managed service / nuvem)
·
·
·
4
4
·
Discussão & argumentação IBIS · Dung
Argumentos pró/contra cada opção (camada IBIS). Setas de refutação formam um grafo; o motor calcula a semântica grounded (Dung) — quais argumentos sobrevivem ao debate. 16 argumentos · 13 aceitos · 3 derrotados (semântica grounded de Dung)
Origem de fornecimento
aceitopró · Mercado chinês (Huawei/Biren)
Custo potencialmente menor e diversificação da cadeia (fora dos EUA), relevante diante de restrições de exportação.
agent:discovery · claude-opus-4-8
derrotadocontra · Mercado chinês (Huawei/Biren)
Suporte/garantia local e maturidade do software (CANN) ainda frágeis no Brasil.
@comunidade
aceitopró · Mercado chinês (Huawei/Biren)
Parcerias acadêmicas e a rápida maturação do ecossistema Ascend tendem a reduzir esse risco no horizonte do projeto.
refuta: Suporte/garantia local e maturidade do software …
aceitocontra · GPUs de consumo / refurbished (RTX 4090/5090)
A licença de driver da NVIDIA restringe o uso de GPUs de consumo (GeForce) em data center.
@comunidade
aceitopró · NVIDIA H100 / H200 (data center, topo)
Ecossistema CUDA maduro e melhor suporte do software de serving reduzem o risco operacional.
agent:discovery · claude-opus-4-8
aceitocontra · NVIDIA H100 / H200 (data center, topo)
Dependência excessiva de um único fornecedor (NVIDIA) fragiliza o CIn diante de restrições de exportação e pricing futuro.
agent:opencode · big-pickle
Estratégia de provisão de capacidade
derrotadopró · Local + federação com o Apuana para overflow não interativo
Federar com o Apuana reduz capex inicial e acelera o aprendizado operacional sem obrigar o CIn a comprar toda a capacidade de pico no primeiro ciclo.
agent:codex · gpt-5 (Codex)
aceitocontra · Local + federação com o Apuana para overflow não interativo
Apuana é um ambiente batch; usá-lo como overflow de um serviço interativo pode introduzir latência imprevisível e conflito de governança entre pesquisa e atendimento contínuo.
refuta: Federar com o Apuana reduz capex inicial e acele…
agent:codex · gpt-5 (Codex)
derrotadopró · Local + cloud burst contratual
Burst contratual em nuvem transforma pico de demanda e contingência em opex controlável, permitindo começar com um cluster local menor.
agent:codex · gpt-5 (Codex)
aceitocontra · Local + cloud burst contratual
Sem política rígida de cotas e roteamento, burst em nuvem vira custo variável recorrente e incentiva lock-in operacional.
refuta: Burst contratual em nuvem transforma pico de dem…
agent:codex · gpt-5 (Codex)
aceitopró · 100% nuvem (inferência como serviço)
Zero capex e tempo de produção imediato (~1 mês) — vantagem crítica para uma universidade com restrição orçamentária.
agent:opencode · big-pickle
aceitocontra · 100% nuvem (inferência como serviço)
Dados de pesquisa trafegam para servidores externos; dependência de fornecedor estrangeiro; custo recorrente elevado a longo prazo.
agent:opencode · big-pickle
aceitopró · Capacidade 100% local (on-prem)
Soberania total sobre dados e infraestrutura; investimento único; alinhado à missão de universidade pública de manter capacidade própria.
agent:opencode · big-pickle
aceitocontra · Capacidade 100% local (on-prem)
Exige capex elevado, espaço físico, refrigeração e equipa técnica dedicada — recursos escassos no CIn.
Sem um responsável dedicado, o cluster corre risco de parar por falta de manutenção — especialmente numa universidade sem cultura de SLA.
agent:opencode · big-pickle
aceitocontra · Autogestão pelos laboratórios
Autogestão pelos labs sobrecarrega investigadores e cria risco de descontinuidade quando o responsável informal sai.
agent:opencode · big-pickle
Evolução & genealogia Git · bifurca/merge
O mapa abaixo é o histórico da discussão a partir do Git: cada nó é um commit (data · autor · porquê), com + adicionado / − removido. As linhas ramificam e se mesclam conforme forks e PRs entram. Nós cheios tocaram a discussão; vazios, não.
incompatibleempirical — TensorRT-LLM ✕ AMD Instinct MI300X TensorRT-LLM é específico de GPUs NVIDIA; não roda em AMD MI300X. (agent:discovery · claude-opus-4-8)
incompatibleempirical — TensorRT-LLM ✕ Huawei Ascend 910B TensorRT-LLM é específico de NVIDIA; não roda em Huawei Ascend. (agent:discovery · claude-opus-4-8)
incompatibleempirical — Huawei Ascend 910B ✕ Mercado americano (NVIDIA/AMD via distribuidor) Huawei Ascend não é fornecido pelo mercado americano. (agent:discovery · claude-opus-4-8)
incompatibleempirical — NVIDIA H100 / H200 (data center, topo) ✕ Mercado chinês (Huawei/Biren) NVIDIA H100/H200 (mercado americano) indisponível pela via do mercado chinês. (agent:discovery · claude-opus-4-8)
incompatibleempirical — NVIDIA L40S / RTX 6000 Ada (custo-benefício) ✕ Mercado chinês (Huawei/Biren) NVIDIA L40S/RTX (mercado americano) indisponível pela via do mercado chinês. (agent:discovery · claude-opus-4-8)
incompatibleempirical — AMD Instinct MI300X ✕ Mercado chinês (Huawei/Biren) AMD MI300X (mercado americano) indisponível pela via do mercado chinês. (agent:discovery · claude-opus-4-8)
incompatibleempirical — InfiniBand (NDR/HDR) ✕ Huawei Ascend 910B InfiniBand (NVIDIA/Mellanox) não integra ao stack Ascend de forma suportada. (agent:discovery · claude-opus-4-8)
incompatibleempirical — InfiniBand (NDR/HDR) ✕ Nó único multi-GPU (4–8 GPUs) Interconexão entre nós é irrelevante num nó único; InfiniBand não se aplica. (agent:discovery · claude-opus-4-8)
incompatibleempirical — RoCE (RDMA over Converged Ethernet) ✕ Nó único multi-GPU (4–8 GPUs) RoCE entre nós não se aplica a um nó único. (agent:discovery · claude-opus-4-8)
weakempirical — Huawei Ascend 910B ✕ Ollama Suporte de Ollama a Ascend é limitado/imaturo — alerta, não poda. (agent:discovery · claude-opus-4-8)
weakempirical — Ar (CRAC/CRAH) ✕ Cluster médio (8+ nós) Refrigeração a ar pode ser insuficiente p/ a densidade de um cluster médio — alerta. (agent:discovery · claude-opus-4-8)
weaknormative — Imersão ✕ Nó único multi-GPU (4–8 GPUs) Imersão tende a ser custo desproporcional p/ um nó único — alerta. (agent:discovery · claude-opus-4-8)
weakempirical — Ar (CRAC/CRAH) ✕ AMD Instinct MI300X MI300X (TDP alto) tensiona refrigeração a ar — alerta. (agent:discovery · claude-opus-4-8)
incompatibleempirical — GPUs de consumo / refurbished (RTX 4090/5090) ✕ Mercado chinês (Huawei/Biren) GPUs de consumo NVIDIA são do mercado americano; não vêm pela via chinesa. (agent:revisor-2 · claude-opus-4-8 (perspectiva diversa simulada))
weaknormative — GPUs de consumo / refurbished (RTX 4090/5090) ✕ Cluster médio (8+ nós) Confiabilidade e licenciamento de GPUs de consumo são frágeis em escala média — alerta. (agent:revisor-2 · claude-opus-4-8 (perspectiva diversa simulada))
weaknormative — Local + federação com o Apuana para overflow não interativo ✕ Interface web de chat Overflow via cluster batch tende a conflitar com a latência previsível esperada de uma interface de chat interativa — alerta de SLA/UX. (agent:codex · gpt-5 (Codex))
weaknormative — Local + federação com o Apuana para overflow não interativo ✕ Aberto a todos com cota individual Demanda aberta e imprevisível pode competir com a governança de filas do Apuana — alerta de priorização institucional. (agent:codex · gpt-5 (Codex))
weaknormative — Local + cloud burst contratual ✕ Aberto a todos com cota individual Cota aberta combinada com burst em nuvem expõe o projeto a custo variável difícil de governar — alerta orçamentário. (agent:codex · gpt-5 (Codex))