Zum Inhalt springen
Guide

Claude Advisor Tool: Kombinieren Sie einen schnellen Ausführenden mit einem intelligenteren Planer

| 8 min read

Mit dem Advisor-Tool kann Sonnet Opus der mittleren Generation anrufen, um strategische Beratung zu erhalten. Eine API-Anfrage, zwei Modelle, nahezu Opus-Qualität zum Sonnet-Preis.

AI brain visualization with neural network connections representing dual-model collaboration
Photo by Andrea De Santis on Unsplash

Sie haben einen Codierungsagenten, der Sonnet ausführt. Es bewältigt 90 % der Wendungen, ohne ins Schwitzen zu geraten: Lesen von Dateien, Tests durchführen, Boilerplate schreiben. Aber wenn es um eine knifflige Architekturentscheidung oder eine subtile Parallelität geht Käfer, du wünschst, es könnte einen Freund anrufen.

Das ist das Advisor-Tool. Die neue Beta-API-Funktion von Anthropic ermöglicht ein schnelleres Executor-Modell (Sonnet oder Haiku). Nennen Sie ein höherintelligentes Beratermodell (Opus) der mittleren Generation. Der Berater liest das vollständige Transkript, erstellt einen kurzen Plan oder eine Kurskorrektur, und der Ausführende fährt mit der Aufgabe fort. Eine API-Anfrage, zwei Modelle, nahezu Opus-Qualität zum Sonnet-Preis.

So funktioniert das Advisor-Tool

Wenn Sie das Advisor-Tool zu Ihrem hinzufügen tools Array, der Ausführende entscheidet, wann er es aufruft, wie jedes andere Werkzeug. Der Ablauf:

  1. Der Testamentsvollstrecker sendet ein server_tool_use blockieren mit name: "advisor" und ein leeres input.
  2. Anthropic führt einen separaten Inferenzdurchlauf auf der Serverseite des Beratermodells aus und übergibt dabei das vollständige Transkript des Ausführenden (Systemeingabeaufforderung, Tooldefinitionen, alle vorherigen Runden und Ergebnisse).
  3. Die Antwort des Beraters wird als zurückgegeben advisor_tool_result Block (typischerweise 400 bis 700 Text-Tokens).
  4. Der Testamentsvollstrecker fährt mit der Generierung fort, informiert durch den Rat.

All dies geschieht in einem einzigen /v1/messages Anfrage. Keine zusätzlichen Hin- und Rückfahrten Ihrerseits. Der Advisor läuft ohne Tools und ohne Kontextmanagement; seine Denkblockaden werden fallen gelassen und nur der Hinweistext gelangt zum Testamentsvollstrecker.

Ihr erster Berateranruf: Curl, Python und TypeScript

Das Advisor-Tool befindet sich in der Beta-Phase. Fügen Sie die hinzu advisor-tool-2026-03-01 Beta-Header in Ihren Anfragen. Hier ist der einfachste mögliche Aufruf:

Locken

curl https://api.anthropic.com/v1/messages \\
  --header "x-api-key: \$ANTHROPIC_API_KEY" \\
  --header "anthropic-version: 2023-06-01" \\
  --header "anthropic-beta: advisor-tool-2026-03-01" \\
  --header "content-type: application/json" \\
  --data '{
    "model": "claude-sonnet-4-6",
    "max_tokens": 4096,
    "tools": [
      {
        "type": "advisor_20260301",
        "name": "advisor",
        "model": "claude-opus-4-6"
      }
    ],
    "messages": [{
      "role": "user",
      "content": "Build a concurrent worker pool in Go with graceful shutdown."
    }]
  }'

Python

import anthropic

client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=4096,
    betas=["advisor-tool-2026-03-01"],
    tools=[
        {
            "type": "advisor_20260301",
            "name": "advisor",
            "model": "claude-opus-4-6",
        }
    ],
    messages=[
        {
            "role": "user",
            "content": "Build a concurrent worker pool in Go with graceful shutdown.",
        }
    ],
)

print(response)

Typoskript

import Anthropic from "@anthropic-ai/sdk";

const client = new Anthropic();

const response = await client.beta.messages.create({
  model: "claude-sonnet-4-6",
  max_tokens: 4096,
  betas: ["advisor-tool-2026-03-01"],
  tools: [
    {
      type: "advisor_20260301",
      name: "advisor",
      model: "claude-opus-4-6",
    },
  ],
  messages: [
    {
      role: "user",
      content: "Build a concurrent worker pool in Go with graceful shutdown.",
    },
  ],
});

console.log(response);

Wie die Antwort aussieht

Ein erfolgreicher Berateraufruf erzeugt vier Inhaltsblöcke: den Anfangstext des Testamentsvollstreckers, den server_tool_use Block, der advisor_tool_result Block und des Testamentsvollstreckers Endgültige Ausgabe, informiert durch den Rat.

{
  "role": "assistant",
  "content": [
    {
      "type": "text",
      "text": "Let me consult the advisor on this."
    },
    {
      "type": "server_tool_use",
      "id": "srvtoolu_abc123",
      "name": "advisor",
      "input": {}
    },
    {
      "type": "advisor_tool_result",
      "tool_use_id": "srvtoolu_abc123",
      "content": {
        "type": "advisor_result",
        "text": "Use a channel-based coordination pattern. Close the input channel first, then wait on a WaitGroup..."
      }
    },
    {
      "type": "text",
      "text": "Here's the implementation using a channel-based coordination pattern..."
    }
  ]
}

Der advisor_tool_result Der Inhalt hat zwei Varianten: advisor_result mit Klartext Ratschläge und advisor_redacted_result mit verschlüsselten Inhalten. In beiden Fällen erfolgt die Hin- und Rückfahrt Der Inhalt wird in den folgenden Runden wörtlich wiedergegeben.

Gültige Modellpaare

Der Berater muss mindestens ebenso fähig sein wie der Testamentsvollstrecker. Ungültige Paare geben a zurück 400 Fehler.

Testamentsvollstrecker Beraterin
Claude Haiku 4.5 Schließen Sie die Arbeit 4.6
Claude Sonett 4.6 Schließen Sie die Arbeit 4.6
Schließen Sie die Arbeit 4.6 Schließen Sie die Arbeit 4.6

Der Sweet Spot für die meisten Arbeitslasten: Sonnet als Ausführender, Opus als Berater. Sie erhalten einen Qualitätslift bei ähnliche oder niedrigere Gesamtkosten im Vergleich zum Betrieb von Opus für jeden Token.

Gespräche mit mehreren Runden

Übergeben Sie den gesamten Inhalt des Assistenten, einschließlich advisor_tool_result Blöcke, zurück zur API auf nachfolgende Runden. Wenn Sie das Advisor-Tool weglassen tools in einem Folgezug, während der Der Nachrichtenverlauf enthält noch advisor_tool_result Blöcke gibt die API a zurück 400.

import anthropic

client = anthropic.Anthropic()

tools = [
    {
        "type": "advisor_20260301",
        "name": "advisor",
        "model": "claude-opus-4-6",
    }
]

messages = [
    {
        "role": "user",
        "content": "Build a concurrent worker pool in Go with graceful shutdown.",
    }
]

# First turn: executor calls advisor, builds the worker pool
response = client.beta.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=4096,
    betas=["advisor-tool-2026-03-01"],
    tools=tools,
    messages=messages,
)

# Pass back the full response content (including advisor_tool_result blocks)
messages.append({"role": "assistant", "content": response.content})
messages.append({"role": "user", "content": "Now add a max-in-flight limit of 10."})

# Second turn: executor has context from first advisor call
response = client.beta.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=4096,
    betas=["advisor-tool-2026-03-01"],
    tools=tools,
    messages=messages,
)

Schnelles Engineering für Codierungsagenten

Das Advisor-Tool wird mit einer integrierten Beschreibung geliefert, die den Ausführenden dazu veranlasst, es gleich zu Beginn aufzurufen komplexer Aufgaben. Bei Codierungs- und Agenten-Workloads können Sie die Ergebnisse mit einer Systemeingabeaufforderung verbessern verstärkt zwei Timings:

  • Ein frühes erstes Beratungsgespräch, nachdem einige explorative Lektüren im Transkript stehen
  • Ein letzter Berateraufruf nach Dateischreibvorgängen und Testausgaben finden Sie im Transkript

Hier ist das Systemaufforderungsmuster, das Anthropic für Codierungsaufgaben empfiehlt. Es produzierte das Höchste Intelligenz zu nahezu Sonett-Kosten in internen Auswertungen:

You have access to an \`advisor\` tool backed by a stronger reviewer model.
It takes NO parameters. When you call advisor(), your entire conversation
history is automatically forwarded.

Call advisor BEFORE substantive work: before writing, before committing
to an interpretation, before building on an assumption.

Also call advisor:
- When you believe the task is complete (save your deliverable first)
- When stuck: errors recurring, approach not converging
- When considering a change of approach

The advisor should respond in under 100 words and use enumerated steps,
not explanations.

Reduzieren Sie die ausgegebenen Token um 35–45 %: Fügte hinzu: „Der Berater sollte in weniger als 100 Wörtern antworten.“ und verwenden Sie aufgezählte Schritte, keine Erklärungen“ zu Ihrer Systemeingabeaufforderung, ohne dass die Advisor-Ausgabe gekürzt wird Änderung der Anrufhäufigkeit. Kombinieren Sie es mit dem Timing-Block, um den besten Kompromiss zwischen Kosten und Qualität zu erzielen.

Kombination mit anderen Werkzeugen

Das Advisor-Tool besteht aus Websuche, Codeausführung und Ihren benutzerdefinierten Tools tools Array. Der Testamentsvollstrecker kann im Internet suchen, den Berater anrufen und Ihre Werkzeuge nutzen die gleiche Runde. Der Plan des Beraters kann Aufschluss darüber geben, zu welchen Werkzeugen der Testamentsvollstrecker als nächstes greift.

tools = [
    {
        "type": "web_search_20250305",
        "name": "web_search",
        "max_uses": 5,
    },
    {
        "type": "advisor_20260301",
        "name": "advisor",
        "model": "claude-opus-4-6",
    },
    {
        "name": "run_bash",
        "description": "Run a bash command",
        "input_schema": {
            "type": "object",
            "properties": {"command": {"type": "string"}},
        },
    },
]

Zwischenspeicherung der Advisor-Eingabeaufforderung

Es stehen zwei unabhängige Caching-Ebenen zur Verfügung. Das Caching auf der Executor-Seite funktioniert genauso wie jeder andere Inhaltsblock: Platzieren Sie a cache_control Haltepunkt nach einem advisor_tool_result und es trifft.

Durch das beraterseitige Caching wird das Transkript des Beraters über Anrufe hinweg innerhalb derselben Konversation zwischengespeichert. Aktivieren Sie es mit a caching Feld in der Werkzeugdefinition:

tools = [
    {
        "type": "advisor_20260301",
        "name": "advisor",
        "model": "claude-opus-4-6",
        "caching": {"type": "ephemeral", "ttl": "5m"},
    }
]

Das Schreiben in den Cache kostet mehr als die Leseeinsparung, wenn der Advisor zwei oder weniger Mal aufgerufen wird. Das Caching erreicht die Gewinnschwelle nach etwa drei Berateranrufen und verbessert sich von da an. Aktivieren Sie es für lange Zeit Agentenschleifen; Lassen Sie es für kurze Aufgaben ausgeschaltet.

Aufschlüsselung nach Nutzung und Abrechnung

Berateranrufe werden als separate Sub-Inferenz ausgeführt, die zu den Tarifen des Beratermodells abgerechnet wird. Der usage.iterations array gibt Ihnen eine Aufschlüsselung pro Iteration:

{
  "usage": {
    "input_tokens": 412,
    "cache_read_input_tokens": 0,
    "cache_creation_input_tokens": 0,
    "output_tokens": 531,
    "iterations": [
      {
        "type": "message",
        "input_tokens": 412,
        "output_tokens": 89
      },
      {
        "type": "advisor_message",
        "model": "claude-opus-4-6",
        "input_tokens": 823,
        "output_tokens": 1612
      },
      {
        "type": "message",
        "input_tokens": 1348,
        "cache_read_input_tokens": 412,
        "output_tokens": 442
      }
    ]
  }
}

Top-Niveau usage Felder spiegeln nur Executor-Tokens wider. Iterationen mit type: "advisor_message" werden zu den Tarifen des Beratermodells abgerechnet. Benutzen Sie die iterations Array beim Erstellen einer Kostenverfolgungslogik.

Kostenkontrolle: Berateranrufe begrenzen

Das Beratertool verfügt über keine integrierte Obergrenze auf Konversationsebene. Verwenden max_uses auf dem Werkzeug Definition für Limits pro Anfrage. Zählen Sie für Grenzwerte auf Konversationsebene Anrufe auf Client-Seite und Ziehen Sie den Berater aus, wenn Sie Ihre Obergrenze erreichen:

# Track advisor calls client-side
advisor_count = 0
MAX_ADVISOR_CALLS = 5

for turn in conversation:
    response = client.beta.messages.create(...)

    # Count advisor calls in response
    for block in response.content:
        if block.type == "server_tool_use" and block.name == "advisor":
            advisor_count += 1

    if advisor_count >= MAX_ADVISOR_CALLS:
        # Remove advisor tool and strip advisor_tool_result blocks
        tools = [t for t in tools if t.get("name") != "advisor"]
        for msg in messages:
            if msg["role"] == "assistant":
                msg["content"] = [
                    b for b in msg["content"]
                    if b.get("type") not in ("server_tool_use", "advisor_tool_result")
                    or b.get("name") != "advisor"
                ]

Fehlerbehandlung

Wenn der Advisor-Aufruf fehlschlägt, trägt das Ergebnis ein advisor_tool_result_error mit einem error_code. Der Testamentsvollstrecker sieht den Fehler und fährt ohne Rat fort; die Anfrage selbst scheitert nicht.

Fehlercode Bedeutung
max_uses_exceeded Anfrage erreichte die max_uses Obergrenze für die Werkzeugdefinition
too_many_requests Die Subinferenz des Beraters war ratenbegrenzt
overloaded Advisor hat Kapazitätsgrenzen erreicht
prompt_too_long Das Transkript hat das Kontextfenster des Advisor-Modells überschritten
execution_time_exceeded Zeitüberschreitung bei der Advisor-Subinferenz

Streaming-Verhalten

Die Advisor-Subinferenz wird nicht gestreamt. Der Stream des Executors wird angehalten, während der Advisor ausgeführt wird. dann das volle advisor_tool_result kommt in einem einzigen content_block_start Ereignis. SSE-Ping-Keepalives werden während der Pause alle 30 Sekunden ausgelöst. Planen Sie 2 bis 5 Sekunden ein Stille pro Berateranruf, abhängig von der Länge des Transkripts.

Wann der Berater hilft (und wann nicht)

Gute Passform Schwache Passform
Codierungsagenten mit mehrstufigen Dateibearbeitungen Single-Turn-Fragen und Antworten
Mehrstufige Forschungspipelines Modellauswahl-Benutzeroberflächen, bei denen Benutzer Qualität auswählen
Computer nutzen Agenten mit verzweigten Entscheidungen Arbeitslasten, bei denen jede Runde volles Opus erfordert
CI/CD-Pipelines mit komplexer Testanalyse Kurze, reaktive Aufgaben, die durch die Werkzeugausgabe bestimmt werden

Tipp zur Aufwandskopplung: Koppeln Sie für Codierungsaufgaben einen Sonnet-Executor mit mittlerem Aufwand mit ein Opus-Berater. Dadurch wird eine mit Sonnet vergleichbare Intelligenz bei Standardaufwand und geringeren Kosten erreicht. Um maximale Intelligenz zu erzielen, halten Sie den Testamentsvollstrecker auf dem Standardaufwand.

Einschränkungen, die Sie kennen sollten

  • Die Ausgabe des Advisors wird nicht gestreamt. Erwarten Sie eine Pause während der Unterinferenz.
  • Es gibt keine integrierte Obergrenze auf Gesprächsebene für Berateranrufe. Verfolgen und begrenzen Sie sie kundenseitig.
  • max_tokens gilt nur für die Executor-Ausgabe. Es bindet keine Berater-Token.
  • Die Prioritätsstufe des Testamentsvollstreckers erstreckt sich nicht auf den Berater. Sie benötigen es bei beiden Modellen.
  • Die Funktion befindet sich in der Betaphase. Enthalten anthropic-beta: advisor-tool-2026-03-01 in jeder Anfrage.

FAQ

Was ist das Claude Advisor Tool?
Das Advisor-Tool ist eine Beta-Funktion in der Claude-API, die es einem schnelleren Executor-Modell (Sonnet oder Haiku) ermöglicht, ein höherintelligentes Advisor-Modell (Opus) der mittleren Generation zu konsultieren. Der Berater liest das gesamte Gespräch, erstellt einen Plan oder eine Korrektur in 400 bis 700 Token und der Testamentsvollstrecker fährt mit der Aufgabe fort. Es wird innerhalb einer einzelnen /v1/messages-Anfrage ohne zusätzliche Roundtrips ausgeführt.
Wie viel kostet das Claude Advisor Tool?
Berateranrufe werden als separate Sub-Inferenz ausgeführt, die zu den Raten des Beratermodells abgerechnet wird. Die Executor-Tokens werden zum Executor-Tarif abgerechnet. Da der Advisor 400 bis 700 Führungs-Tokens anstelle der gesamten Ausgabe produziert, erfolgt die Token-Generierung größtenteils zum günstigeren Executor-Tarif. Die Kombination von Sonnet als Ausführendem und Opus als Berater liefert nahezu Opus-Qualität zu ähnlichen oder geringeren Gesamtkosten als der alleinige Betrieb von Opus.
Welche Modelle funktionieren mit dem Advisor Tool?
Der Berater muss mindestens ebenso fähig sein wie der Testamentsvollstrecker. Gültige Paare: Haiku 4.5 mit Opus 4.6, Sonnet 4.6 mit Opus 4.6 und Opus 4.6 mit Opus 4.6. Ungültige Paare geben einen 400-Fehler zurück.
Unterstützt das Advisor Tool Streaming?
Der Executor-Stream pausiert, während der Advisor seine Unterinferenz ausführt. Wenn der Advisor beendet ist, kommt das vollständige „visor_tool_result“ in einem einzelnen content_block_start-Ereignis an und die Executor-Ausgabe wird mit dem Streaming fortgesetzt. Während der Pause werden SSE-Ping-Keepalives gesendet.
Wann sollte ich das Advisor-Tool nicht verwenden?
Der Berater bietet einen minimalen Mehrwert für Single-Turn-Fragen und Antworten, bei denen es nichts zu planen gibt, reine Modellauswahl-Benutzeroberflächen, bei denen Benutzer ihren eigenen Kosten- und Qualitätskompromiss wählen, oder Arbeitslasten, bei denen jede Runde die volle Leistungsfähigkeit des Beratermodells erfordert. Es eignet sich hervorragend für Agenten-Workloads mit langem Horizont: Codierungsagenten, mehrstufige Forschung und CI-Pipelines.

Starte mit botoi zu entwickeln

150+ API-Endpunkte für Abfragen, Textverarbeitung, Bildgenerierung und Entwickler-Tools. Kostenloser Tarif, keine Kreditkarte nötig.