Tips Hermes: Pakai Model Bantu untuk Vision

📅 15 Jun 2026🤍0 👁 0 🔗 0

Ada satu trik kecil di Hermes Agent yang gampang kelewat: kamu tidak harus memakai satu model untuk semua pekerjaan.

Misalnya kamu suka pakai model utama yang cepat dan murah seperti DeepSeek V4 Flash, atau model lain yang kuat untuk teks tapi tidak punya kemampuan vision. Biasanya masalah muncul saat Hermes perlu membaca screenshot, menganalisis gambar, merangkum halaman web, atau mengerjakan tugas bantu lain yang butuh kemampuan berbeda.

Solusinya bukan selalu ganti model utama.

Di Hermes, kamu bisa memakai auxiliary model: model tambahan untuk tugas tertentu, sementara model utama tetap sama.

Ini fitur kecil yang efeknya besar. Hermes tetap responsif dan murah untuk percakapan utama, tapi bisa “meminjam” model lain saat perlu kemampuan khusus.

Masalahnya: Satu Model Tidak Selalu Cocok untuk Semua Tugas

Banyak orang memilih model utama berdasarkan tiga hal:

cepat,
murah,
cukup pintar untuk instruksi sehari-hari.

Itu masuk akal. Untuk operator harian, coding ringan, ringkasan, automasi, atau chat Telegram, model cepat sering lebih enak dipakai daripada model mahal yang overkill.

Tapi ada tradeoff.

Beberapa model teks tidak bisa vision. Ada juga model yang bisa reasoning bagus, tapi mahal untuk tugas kecil seperti membuat judul sesi, compression, atau summarizing halaman web.

Kalau semua auxiliary task ikut dilempar ke model utama, biaya bisa naik tanpa terasa. Di sinilah auxiliary model berguna.

Apa Itu Auxiliary Model di Hermes?

Auxiliary model adalah model yang dipakai Hermes untuk pekerjaan sampingan, bukan percakapan utama.

Contoh tugas auxiliary:

vision: membaca gambar atau screenshot,
web_extract: membantu ekstraksi dan ringkasan halaman web,
title_generation: membuat judul sesi,
compression: merapikan konteks saat percakapan panjang,
approval: membantu menilai command berisiko,
goal_judge: mengecek apakah persistent goal sudah selesai.

Secara default, Hermes bisa memakai model utama untuk tugas-tugas ini. Itu aman untuk mulai. Tapi kalau model utama kamu tidak punya vision, atau kamu ingin biaya lebih efisien, lebih bagus kalau beberapa task diarahkan ke model lain.

Pola praktisnya begini:

model utama: cepat dan nyaman untuk chat/operator,
auxiliary vision: model yang bisa gambar,
auxiliary compression/title: model murah dan cepat,
auxiliary approval: model yang cukup hati-hati untuk menilai risiko.

Show diagram source

flowchart LR
    A[Main Chat Model] --> B[Conversation]
    A --> C[Tool Orchestration]
    D[Aux Vision Model] --> E[Image / Screenshot Reading]
    F[Aux Summary Model] --> G[Web Extract / Summaries]
    H[Aux Cheap Model] --> I[Title / Compression]

Contoh Skenario yang Masuk Akal

Misalnya setup kamu seperti ini:

model utama: DeepSeek V4 Flash atau model teks cepat lain,
vision: Gemini Flash / GPT vision-capable / model vision lain,
title_generation: model murah,
compression: model murah dengan context handling bagus.

Dengan pola ini, Hermes tidak perlu mengganti model utama setiap kali kamu ingin menganalisis gambar. Model utama tetap dipakai untuk percakapan, sementara tugas vision dialihkan ke model yang memang bisa melihat gambar.

Ini lebih rapi daripada memaksa satu model melakukan semuanya.

Cara Mengaturnya

Ada dua jalur: lewat dashboard/model picker, atau lewat config.

Cara paling aman untuk user biasa:

bash

hermes model

Lalu pilih:

text

Configure auxiliary models

Dari sana, kamu bisa pilih task seperti:

text

vision
web_extract
title_generation
compression
approval

Untuk tiap task, pilih provider dan model yang cocok.

Kalau kamu memakai Hermes Desktop atau dashboard, prinsipnya sama: masuk ke bagian model/configuration, lalu cari auxiliary tasks atau auxiliary models.

Intinya: jangan hanya lihat model utama; cek juga model pembantu yang dipakai Hermes di belakang layar.

2. Lewat config.yaml

Kalau kamu nyaman edit config, pola umumnya seperti ini:

yaml

auxiliary:
  vision:
    provider: openrouter
    model: google/gemini-3-flash-preview
  web_extract:
    provider: openrouter
    model: google/gemini-3-flash-preview
  title_generation:
    provider: openrouter
    model: google/gemini-3-flash-preview
  compression:
    provider: openrouter
    model: google/gemini-3-flash-preview

Nama provider dan model harus sesuai dengan setup Hermes kamu. Jangan copy mentah kalau provider/API key kamu beda.

Kalau ragu, pakai hermes model saja. Lebih kecil risiko typo.

Tips Memilih Model Auxiliary

Jangan asal pilih model paling mahal. Auxiliary task biasanya kecil dan berulang, jadi biaya kecil yang sering dipanggil bisa menumpuk.

Pakai prinsip ini.

Vision

Pilih model yang memang support image input. Ini penting kalau kamu sering kirim screenshot dari Telegram, browser, UI error, atau gambar dokumen.

Web Extraction dan Summarization

Pilih model cepat yang cukup bagus merangkum. Tidak harus model reasoning berat, kecuali kontennya teknis dan panjang.

Title Generation

Pakai model murah. Judul sesi tidak butuh model premium.

Compression

Pilih model yang stabil dan tidak terlalu mahal. Compression bisa muncul saat percakapan panjang, jadi jangan biarkan task ini diam-diam memakai model mahal kalau kamu ingin hemat.

Approval / Risk Checking

Jangan terlalu murah kalau hasilnya jadi sembrono. Task approval berhubungan dengan command berisiko. Modelnya harus cukup reliable untuk membedakan command aman dan destruktif.

Kenapa Ini Berguna untuk Workflow Harian?

Buat penggunaan Hermes sebagai operator VPS atau assistant Telegram, setup ini bikin pengalaman lebih enak:

chat tetap cepat,
vision tetap jalan,
biaya lebih terkendali,
tidak perlu bolak-balik ganti model,
task kecil tidak membakar model mahal,
model utama bisa dipilih berdasarkan “rasa pakai”, bukan dipaksa jadi serba bisa.

Ini juga cocok untuk setup multi-provider. Misalnya kamu suka satu provider untuk chat utama, tapi provider lain punya model vision yang lebih murah atau lebih stabil. Hermes cukup fleksibel untuk membagi peran itu.

Kesalahan yang Sering Terjadi

Ada beberapa jebakan kecil:

Mengira model utama harus vision-capable
Tidak selalu. Kamu bisa tetap pakai model teks cepat sebagai main model, lalu pindahkan vision ke auxiliary model.
Membiarkan semua auxiliary task di model mahal
Ini boros. Title generation dan compression tidak selalu butuh model top-tier.
Salah pilih model untuk vision
Kalau model tidak support image input, analisis gambar bisa gagal atau hasilnya kacau.
Lupa restart atau mulai sesi baru setelah perubahan config
Beberapa perubahan config/tooling baru terasa setelah session baru atau restart gateway.
Menaruh API key di config yang salah
Secrets sebaiknya masuk .env, bukan ditulis sembarangan di dokumen atau repo.

Checklist Cepat

Kalau kamu ingin setup Hermes lebih efisien, cek ini:

model utama sudah cocok untuk chat harian,
vision diarahkan ke model yang support gambar,
title generation pakai model murah,
compression tidak memakai model premium tanpa alasan,
approval task tetap memakai model yang cukup aman,
API key tidak bocor ke repo atau chat,
perubahan sudah dites dengan tugas nyata.

Tes paling simpel:

kirim gambar atau screenshot ke Hermes,
minta Hermes jelaskan isi gambar,
cek apakah task vision berjalan,
coba sesi panjang dan lihat apakah compression tidak error,
cek biaya/provider usage kalau tersedia.

Penutup

Auxiliary model bukan fitur yang paling ramai dibahas, tapi ini salah satu cara membuat Hermes terasa lebih matang.

Jangan paksa satu model jadi palu untuk semua paku. Pakai model utama untuk percakapan dan orchestration. Pakai model bantu untuk tugas khusus seperti vision, summarization, title generation, dan compression.

Setup kecil ini bikin Hermes lebih fleksibel: cepat saat dipakai, tetap capable saat butuh kemampuan khusus, dan lebih waras dari sisi biaya.

Sumber inspirasi: Hermes Agent Tips di X.
Referensi resmi: Hermes Agent Configuration Docs.

← Artikel Sebelumnya

Fantasy League World Cup: Aku Setup, Hermes yang Pilih

Artikel Selanjutnya →

NotebookLM MCP: NotebookLM mulai masuk ke dunia agentic workflow