idea-waddle — cin-cluster-inferencia

12parâmetros

2,099,520config. totais

10restrições

933,120config. viáveis

44.4%espaço de solução

Leitura da configuração

atualiza com a seleção ↓

Selecione opções na caixa abaixo para estimar custo, potência e energia.

Valores são placeholders a refinar — premissas em assumptions.yaml, dados por opção em params/*.yaml. Tratar como ordem de grandeza.

Caixa morfológica

Clique numa célula por linha para montar uma configuração. Opções incompatíveis com a seleção ficam bloqueadas; as de alerta seguem disponíveis. Cada escolha revela comentário, proveniência e caminhos de restrição.

Hardware de aceleraçãoQue acelerador(es) formam a base do cluster de inferência.

NVIDIA H100 / H200 (data center, topo)agent:discovery · claude-opus-4-8

NVIDIA L40S / RTX 6000 Ada (custo-benefício)agent:discovery · claude-opus-4-8

AMD Instinct MI300Xagent:discovery · claude-opus-4-8

Huawei Ascend 910Bagent:discovery · claude-opus-4-8

GPUs de consumo / refurbished (RTX 4090/5090)agent:revisor-2 · claude-opus-4-8 (perspectiva diversa simulada)

Origem de fornecimentoDe qual mercado/cadeia as placas e o suporte viriam.

Mercado americano (NVIDIA/AMD via distribuidor)agent:discovery · claude-opus-4-8

Mercado chinês (Huawei/Biren)agent:discovery · claude-opus-4-8

Parceria / doação de fabricante ou nuvemagent:discovery · claude-opus-4-8

Software de serving (inferência)Stack que serve os modelos para a comunidade.

vLLMagent:discovery · claude-opus-4-8

SGLangagent:discovery · claude-opus-4-8

TensorRT-LLMagent:discovery · claude-opus-4-8

Ollamaagent:discovery · claude-opus-4-8

Escala inicialTamanho do investimento inicial do cluster de inferência.

Nó único multi-GPU (4–8 GPUs)agent:discovery · claude-opus-4-8

Cluster pequeno (2–4 nós)agent:discovery · claude-opus-4-8

Cluster médio (8+ nós)agent:discovery · claude-opus-4-8

Interconexão de redeTecnologia de rede entre nós (relevante a partir de múltiplos nós).

Ethernet (100GbE)agent:discovery · claude-opus-4-8

RoCE (RDMA over Converged Ethernet)agent:discovery · claude-opus-4-8

InfiniBand (NDR/HDR)agent:discovery · claude-opus-4-8

Modelo de acesso da comunidadeComo a comunidade universitária consome a inferência.

API compatível com OpenAI (interna)agent:discovery · claude-opus-4-8

Interface web de chatagent:discovery · claude-opus-4-8

API + chat (ambos)agent:discovery · claude-opus-4-8

Refrigeração / energiaComo o calor é dissipado; impacta capex e PUE (eficiência energética).

Ar (CRAC/CRAH)agent:discovery · claude-opus-4-8

Líquido direto ao chip (DLC)agent:discovery · claude-opus-4-8

Imersãoagent:discovery · claude-opus-4-8

ArmazenamentoOnde ficam pesos de modelos, caches e dados de apoio à inferência.

NAS / NFS (SSD)agent:discovery · claude-opus-4-8

Sistema de arquivos paralelo (Lustre/BeeGFS)agent:discovery · claude-opus-4-8

Object storage (S3/MinIO)agent:discovery · claude-opus-4-8

Modelos de LLM a servirQuais famílias de modelos seriam disponibilizadas à comunidade.

Llama (Meta, aberto)agent:discovery · claude-opus-4-8

Qwen / DeepSeek (abertos, China)agent:discovery · claude-opus-4-8

Mistral (aberto, Europa)agent:discovery · claude-opus-4-8

Portfólio diverso (múltiplas famílias)agent:discovery · claude-opus-4-8

Políticas de uso / cotaComo o acesso à inferência é distribuído e regulado na comunidade.

Aberto a todos com cota individualagent:discovery · claude-opus-4-8

Alocação por laboratório/projetoagent:discovery · claude-opus-4-8

Fila com prioridade p/ pesquisaagent:discovery · claude-opus-4-8

Estratégia de provisão de capacidadeComo o serviço acomoda picos, contingência e crescimento sem necessariamente comprar toda a capacidade no dia 1.

Capacidade 100% local (on-prem)agent:codex · gpt-5 (Codex)

Local + federação com o Apuana para overflow não interativoagent:codex · gpt-5 (Codex)

Local + cloud burst contratualagent:codex · gpt-5 (Codex)

100% nuvem (inferência como serviço)agent:opencode · big-pickle

Operações / staffingQuem opera, mantém e faz a gestão diária do cluster de inferência.

Autogestão pelos laboratóriosagent:opencode · big-pickle

Técnico/analista dedicado (CLT/terceiro)agent:opencode · big-pickle

Serviço gerido (managed service / nuvem)agent:opencode · big-pickle

Seleção atual

Nenhuma célula selecionada.

Caminhos de restrição

Selecione células para ver as restrições disparadas.

Critérios de avaliação

Custo de capital (R$) quantitative · minimize · R$
≈ n_gpus × capex_por_gpu + capex_fixo (rede etc.).
Potência elétrica (kW) quantitative · minimize · kW
≈ n_gpus × TDP_por_gpu × PUE.
Energia (R$/mês) quantitative · minimize · R$/mês
≈ potência(kW) × horas/mês × tarifa(R$/kWh).
Prazo até produção qualitative · maximize · 1-5 (maior = entra em produção mais rápido)
Captura prazo de compra, integração, implantação e governança.
Elasticidade de capacidade qualitative · maximize · 1-5 (maior = absorve melhor picos e contingência)
Captura a capacidade de crescer ou absorver pico sem sobredimensionar o cluster local.
Soberania (dados/fornecimento) qualitative · maximize · 1-5 (maior = mais soberano)
Elo mais fraco define o conjunto (min).
Baixo risco de fornecimento qualitative · maximize · 1-5 (maior = menor risco)
Suporte / manutenção qualitative · maximize · 1-5 (maior = melhor)
Sustentabilidade / eficiência energética qualitative · maximize · 1-5 (maior = mais sustentável)
Proposto por agent:revisor-2 (perspectiva diversa simulada).
Custo operacional anual (R$/ano) quantitative · minimize · R$/ano
≈ energia anual + staff/ano + manutenção. Ver métrica opex_anual.

Premissas (placeholders, em assumptions.yaml): tarifa R$ 0.95/kWh · 720 h/mês · PUE 1.5

Matriz QOC opções × critérios

Hardware de aceleração

	Prazo	Elasticid.	Soberania	Risco forn.	Suporte	Sustent.
NVIDIA H100 / H200 (data center, topo)	·	·	2	3	5	3
NVIDIA L40S / RTX 6000 Ada (custo-benefício)	·	·	2	4	5	4
AMD Instinct MI300X	·	·	2	3	3	2
Huawei Ascend 910B	·	·	3	2	2	3
GPUs de consumo / refurbished (RTX 4090/5090)	·	·	2	3	2	2

Origem de fornecimento

	Prazo	Elasticid.	Soberania	Risco forn.	Suporte	Sustent.
Mercado americano (NVIDIA/AMD via distribuidor)	·	·	2	3	5	·
Mercado chinês (Huawei/Biren)	·	·	3	2	2	·
Parceria / doação de fabricante ou nuvem	·	·	3	3	3	·

Software de serving (inferência)

	Prazo	Elasticid.	Soberania	Risco forn.	Suporte	Sustent.
vLLM	·	·	·	·	4	·
SGLang	·	·	·	·	3	·
TensorRT-LLM	·	·	·	·	5	·
Ollama	·	·	·	·	4	·

Escala inicial

	Prazo	Elasticid.	Soberania	Risco forn.	Suporte	Sustent.
Nó único multi-GPU (4–8 GPUs)	5	2	·	·	·	·
Cluster pequeno (2–4 nós)	3	3	·	·	·	·
Cluster médio (8+ nós)	1	4	·	·	·	·

Interconexão de rede

	Prazo	Elasticid.	Soberania	Risco forn.	Suporte	Sustent.
Ethernet (100GbE)	·	·	·	·	4	·
RoCE (RDMA over Converged Ethernet)	·	·	·	·	3	·
InfiniBand (NDR/HDR)	·	·	·	·	4	·

Modelo de acesso da comunidade

	Prazo	Elasticid.	Soberania	Risco forn.	Suporte	Sustent.
API compatível com OpenAI (interna)	·	·	·	·	·	·
Interface web de chat	·	·	·	·	·	·
API + chat (ambos)	·	·	·	·	·	·

Refrigeração / energia

	Prazo	Elasticid.	Soberania	Risco forn.	Suporte	Sustent.
Ar (CRAC/CRAH)	5	·	·	·	5	2
Líquido direto ao chip (DLC)	3	·	·	·	4	4
Imersão	1	·	·	·	3	5

Armazenamento

	Prazo	Elasticid.	Soberania	Risco forn.	Suporte	Sustent.
NAS / NFS (SSD)	·	·	·	·	5	·
Sistema de arquivos paralelo (Lustre/BeeGFS)	·	·	·	·	4	·
Object storage (S3/MinIO)	·	·	·	·	4	·

Modelos de LLM a servir

	Prazo	Elasticid.	Soberania	Risco forn.	Suporte	Sustent.
Llama (Meta, aberto)	·	·	4	·	·	·
Qwen / DeepSeek (abertos, China)	·	·	4	·	·	·
Mistral (aberto, Europa)	·	·	4	·	·	·
Portfólio diverso (múltiplas famílias)	·	·	5	·	·	·

Políticas de uso / cota

	Prazo	Elasticid.	Soberania	Risco forn.	Suporte	Sustent.
Aberto a todos com cota individual	·	·	·	·	·	·
Alocação por laboratório/projeto	·	·	·	·	·	·
Fila com prioridade p/ pesquisa	·	·	·	·	·	·

Estratégia de provisão de capacidade

	Prazo	Elasticid.	Soberania	Risco forn.	Suporte	Sustent.
Capacidade 100% local (on-prem)	3	2	5	4	3	·
Local + federação com o Apuana para overflow não interativo	4	3	5	4	3	·
Local + cloud burst contratual	5	5	2	3	4	·
100% nuvem (inferência como serviço)	5	5	1	4	5	·

Operações / staffing

	Prazo	Elasticid.	Soberania	Risco forn.	Suporte	Sustent.
Autogestão pelos laboratórios	·	·	·	2	2	·
Técnico/analista dedicado (CLT/terceiro)	·	·	·	4	5	·
Serviço gerido (managed service / nuvem)	·	·	·	4	4	·

Discussão & argumentação IBIS · Dung

Argumentos pró/contra cada opção (camada IBIS). Setas de refutação formam um grafo; o motor calcula a semântica grounded (Dung) — quais argumentos sobrevivem ao debate. 16 argumentos · 13 aceitos · 3 derrotados (semântica grounded de Dung)

Origem de fornecimento

aceito pró · Mercado chinês (Huawei/Biren)

Custo potencialmente menor e diversificação da cadeia (fora dos EUA), relevante diante de restrições de exportação.

agent:discovery · claude-opus-4-8

derrotado contra · Mercado chinês (Huawei/Biren)

Suporte/garantia local e maturidade do software (CANN) ainda frágeis no Brasil.

@comunidade

aceito pró · Mercado chinês (Huawei/Biren)

Parcerias acadêmicas e a rápida maturação do ecossistema Ascend tendem a reduzir esse risco no horizonte do projeto.

refuta: Suporte/garantia local e maturidade do software …

agent:revisor-2 · claude-opus-4-8 (perspectiva diversa simulada)

Hardware de aceleração

aceito contra · GPUs de consumo / refurbished (RTX 4090/5090)

A licença de driver da NVIDIA restringe o uso de GPUs de consumo (GeForce) em data center.

@comunidade

aceito pró · NVIDIA H100 / H200 (data center, topo)

Ecossistema CUDA maduro e melhor suporte do software de serving reduzem o risco operacional.

agent:discovery · claude-opus-4-8

aceito contra · NVIDIA H100 / H200 (data center, topo)

Dependência excessiva de um único fornecedor (NVIDIA) fragiliza o CIn diante de restrições de exportação e pricing futuro.

agent:opencode · big-pickle

Estratégia de provisão de capacidade

derrotado pró · Local + federação com o Apuana para overflow não interativo

Federar com o Apuana reduz capex inicial e acelera o aprendizado operacional sem obrigar o CIn a comprar toda a capacidade de pico no primeiro ciclo.

agent:codex · gpt-5 (Codex)

aceito contra · Local + federação com o Apuana para overflow não interativo

Apuana é um ambiente batch; usá-lo como overflow de um serviço interativo pode introduzir latência imprevisível e conflito de governança entre pesquisa e atendimento contínuo.

refuta: Federar com o Apuana reduz capex inicial e acele…

agent:codex · gpt-5 (Codex)

derrotado pró · Local + cloud burst contratual

Burst contratual em nuvem transforma pico de demanda e contingência em opex controlável, permitindo começar com um cluster local menor.

agent:codex · gpt-5 (Codex)

aceito contra · Local + cloud burst contratual

Sem política rígida de cotas e roteamento, burst em nuvem vira custo variável recorrente e incentiva lock-in operacional.

refuta: Burst contratual em nuvem transforma pico de dem…

agent:codex · gpt-5 (Codex)

aceito pró · 100% nuvem (inferência como serviço)

Zero capex e tempo de produção imediato (~1 mês) — vantagem crítica para uma universidade com restrição orçamentária.

agent:opencode · big-pickle

aceito contra · 100% nuvem (inferência como serviço)

Dados de pesquisa trafegam para servidores externos; dependência de fornecedor estrangeiro; custo recorrente elevado a longo prazo.

agent:opencode · big-pickle

aceito pró · Capacidade 100% local (on-prem)

Soberania total sobre dados e infraestrutura; investimento único; alinhado à missão de universidade pública de manter capacidade própria.

agent:opencode · big-pickle

aceito contra · Capacidade 100% local (on-prem)

Exige capex elevado, espaço físico, refrigeração e equipa técnica dedicada — recursos escassos no CIn.

agent:opencode · big-pickle

Operações / staffing

aceito pró · Técnico/analista dedicado (CLT/terceiro)

Sem um responsável dedicado, o cluster corre risco de parar por falta de manutenção — especialmente numa universidade sem cultura de SLA.

agent:opencode · big-pickle

aceito contra · Autogestão pelos laboratórios

Autogestão pelos labs sobrecarrega investigadores e cria risco de descontinuidade quando o responsável informal sai.

agent:opencode · big-pickle

Evolução & genealogia Git · bifurca/merge

O mapa abaixo é o histórico da discussão a partir do Git: cada nó é um commit (data · autor · porquê), com + adicionado / − removido. As linhas ramificam e se mesclam conforme forks e PRs entram. Nós cheios tocaram a discussão; vazios, não.

Merge pull request #2 from filipecalegario/revisao-diversa-opencode
2026-06-15 · Filipe Calegario · 3b64c20
Ciclo 006: revisão diversa (big-pickle) reconciliada com o main
2026-06-14 · filipecalegario · f4b523d
+ arg.acel.h100_risco_monocultura+ arg.operacoes.dedicado_pro+ arg.operacoes.labs_con+ arg.provisao.local_diverso_con+ arg.provisao.local_diverso_pro+ arg.provisao.nuvem_con+5
Tema do site: identidade visual CIn-UFPE (canon)
2026-06-14 · filipecalegario · 7ba650b
AGENTS.md autossuficiente: protocolo embutido (de idea-waddle) + drift na CI
2026-06-14 · filipecalegario · dd496ac
Merge pull request #1 from filipecalegario/codex-provisao-energia-cleanup
2026-06-14 · Filipe Calegario · e03eaa1
Add provisioning and energy modeling cycles
2026-06-14 · filipecalegario · 673dc62
+ arg.prov.apuana_con+ arg.prov.apuana_pro+ arg.prov.cloud_burst_con+ arg.prov.cloud_burst_pro+ opt.acesso.chat+ opt.politicas.aberto_cota+6
Critérios: rótulos curtos (short) p/ a matriz QOC
2026-06-14 · filipecalegario · 9c11e63
Modelo de custo do cluster em metrics.yaml (motor agora genérico)
2026-06-14 · filipecalegario · 382061f
CI: fetch-depth:0 para o mapa de evolução (consome motor idea-waddle)
2026-06-14 · filipecalegario · 28dd560
Camada de discussão: arguments.yaml (IBIS + Dung) — debate GPUs US×China
2026-06-14 · filipecalegario · 9297147
+ arg.acel.consumo_con+ arg.acel.h100_pro+ arg.forn.cn_con+ arg.forn.cn_pro+ arg.forn.cn_reb
Divulgação: kit de contribuição (issue/PR templates, CODEOWNERS, anúncio)
2026-06-14 · filipecalegario · 71e0a42
Repo autônomo do caso CIn: README/AGENTS/CALL + CI que consome idea-waddle
2026-06-14 · filipecalegario · 35f19b0
Passo 3: segunda opinião (diversidade, simulada) — agent:revisor-2
2026-06-14 · filipecalegario · 0efe9e0
+ opt.aceleracao.consumo+ opt.escala.medio+ opt.fornecimento.cn
UX: quadro de estimativas no topo (sticky) + correção restrições mercado×placas
2026-06-14 · filipecalegario · eee7ca2
+ opt.aceleracao.h100+ opt.aceleracao.l40s+ opt.aceleracao.mi300+ opt.fornecimento.cn
Passo 2: parâmetros faltantes do Caso 0 (refrigeração, armazenamento, financiamento, modelos, políticas)
2026-06-14 · filipecalegario · 70b8ed1
+ opt.aceleracao.mi300+ opt.armazenamento.nfs+ opt.armazenamento.object+ opt.armazenamento.paralelo+ opt.escala.medio+ opt.escala.no_unico+13
Passo 1: camada QOC (critérios + estimativas de custo/energia)
2026-06-14 · filipecalegario · 65f980d
Discovery: fundação da plataforma + protótipo vivo do caso CIn-UFPE
2026-06-14 · filipecalegario · 4c3c855
+ opt.aceleracao.ascend+ opt.aceleracao.h100+ opt.aceleracao.l40s+ opt.aceleracao.mi300+ opt.acesso.ambos+ opt.acesso.api+14

Restrições registradas

incompatible empirical — TensorRT-LLM ✕ AMD Instinct MI300X
TensorRT-LLM é específico de GPUs NVIDIA; não roda em AMD MI300X. (agent:discovery · claude-opus-4-8)
incompatible empirical — TensorRT-LLM ✕ Huawei Ascend 910B
TensorRT-LLM é específico de NVIDIA; não roda em Huawei Ascend. (agent:discovery · claude-opus-4-8)
incompatible empirical — Huawei Ascend 910B ✕ Mercado americano (NVIDIA/AMD via distribuidor)
Huawei Ascend não é fornecido pelo mercado americano. (agent:discovery · claude-opus-4-8)
incompatible empirical — NVIDIA H100 / H200 (data center, topo) ✕ Mercado chinês (Huawei/Biren)
NVIDIA H100/H200 (mercado americano) indisponível pela via do mercado chinês. (agent:discovery · claude-opus-4-8)
incompatible empirical — NVIDIA L40S / RTX 6000 Ada (custo-benefício) ✕ Mercado chinês (Huawei/Biren)
NVIDIA L40S/RTX (mercado americano) indisponível pela via do mercado chinês. (agent:discovery · claude-opus-4-8)
incompatible empirical — AMD Instinct MI300X ✕ Mercado chinês (Huawei/Biren)
AMD MI300X (mercado americano) indisponível pela via do mercado chinês. (agent:discovery · claude-opus-4-8)
incompatible empirical — InfiniBand (NDR/HDR) ✕ Huawei Ascend 910B
InfiniBand (NVIDIA/Mellanox) não integra ao stack Ascend de forma suportada. (agent:discovery · claude-opus-4-8)
incompatible empirical — InfiniBand (NDR/HDR) ✕ Nó único multi-GPU (4–8 GPUs)
Interconexão entre nós é irrelevante num nó único; InfiniBand não se aplica. (agent:discovery · claude-opus-4-8)
incompatible empirical — RoCE (RDMA over Converged Ethernet) ✕ Nó único multi-GPU (4–8 GPUs)
RoCE entre nós não se aplica a um nó único. (agent:discovery · claude-opus-4-8)
weak empirical — Huawei Ascend 910B ✕ Ollama
Suporte de Ollama a Ascend é limitado/imaturo — alerta, não poda. (agent:discovery · claude-opus-4-8)
weak empirical — Ar (CRAC/CRAH) ✕ Cluster médio (8+ nós)
Refrigeração a ar pode ser insuficiente p/ a densidade de um cluster médio — alerta. (agent:discovery · claude-opus-4-8)
weak normative — Imersão ✕ Nó único multi-GPU (4–8 GPUs)
Imersão tende a ser custo desproporcional p/ um nó único — alerta. (agent:discovery · claude-opus-4-8)
weak empirical — Ar (CRAC/CRAH) ✕ AMD Instinct MI300X
MI300X (TDP alto) tensiona refrigeração a ar — alerta. (agent:discovery · claude-opus-4-8)
incompatible empirical — GPUs de consumo / refurbished (RTX 4090/5090) ✕ Mercado chinês (Huawei/Biren)
GPUs de consumo NVIDIA são do mercado americano; não vêm pela via chinesa. (agent:revisor-2 · claude-opus-4-8 (perspectiva diversa simulada))
weak normative — GPUs de consumo / refurbished (RTX 4090/5090) ✕ Cluster médio (8+ nós)
Confiabilidade e licenciamento de GPUs de consumo são frágeis em escala média — alerta. (agent:revisor-2 · claude-opus-4-8 (perspectiva diversa simulada))
weak normative — Local + federação com o Apuana para overflow não interativo ✕ Interface web de chat
Overflow via cluster batch tende a conflitar com a latência previsível esperada de uma interface de chat interativa — alerta de SLA/UX. (agent:codex · gpt-5 (Codex))
weak normative — Local + federação com o Apuana para overflow não interativo ✕ Aberto a todos com cota individual
Demanda aberta e imprevisível pode competir com a governança de filas do Apuana — alerta de priorização institucional. (agent:codex · gpt-5 (Codex))
weak normative — Local + cloud burst contratual ✕ Aberto a todos com cota individual
Cota aberta combinada com burst em nuvem expõe o projeto a custo variável difícil de governar — alerta orçamentário. (agent:codex · gpt-5 (Codex))

idea·waddle — colaboração criativa humano + agente sobre Git.
Proveniência registrada por opção e restrição (quem · qual modelo). Diversidade é princípio do projeto.
Consulte README.md · AGENTS.md · docs/discovery/ · docs/spec/.

Leitura da configuração

Caixa morfológica

Seleção atual Limpar

Caminhos de restrição

Critérios de avaliação

Matriz QOC opções × critérios

Discussão & argumentação IBIS · Dung

Evolução & genealogia Git · bifurca/merge

Restrições registradas

Seleção atual