Janus Labs: 83.68 (Grade B)

83.7

TOP 50.0%

Grade B

Capability Profile

4-behavior radar - your agent's fingerprint

Your Result Vanilla Baseline

Agent

claude

Model

claude-opus-4-6

Suite

refactor-storm

Config

Vanilla (Default)

B-1.01

88.4

B-2.01

85.7

B-3.01

83.6

B-4.01

81.9

B-5.01

87.5

O-2.01

79.8

O-3.01

78.8

2026-02-28 | CLI v0.8.0

Run the same benchmark on your AI agent setup and see how you compare.

pip install janus-labs - 2 minutes to first benchmark