AI & Open Source Daily — 28 Juni 2026
MiMo Code 10.9k stars ngebeat Claude Code, DeepSpec framework speculative decoding dari DeepSeek, Qwen-AgentWorld outperform GPT-5.4, Godcoder local-first coding agent, GLiGuard guardrail 300M 16x lebih cepat.
Hari ini panas. Xiaomi rilis MiMo Code — terminal coding agent 10.9k stars yang ngebeat Claude Code di task 200+ step. DeepSeek drop DeepSpec — framework speculative decoding, 1.4k stars dalam 2 hari. Qwen bikin AgentWorld — language world model yang outperform GPT-5.4. Plus Godcoder dan GLiGuard. Mari kita bedah.
MiMo Code — Terminal Coding Agent yang Beneran Nginget
Dari XiaomiMiMo/MiMo-Code — fork dari OpenCode, MIT license, 10.9k stars. Dirancang untuk long-horizon automated programming: task yang butuh puluhan bahkan ratusan execution steps, di mana AI coding agent biasa amnesia karena context window penuh.
MiMo Code dibangun di atas tiga pilar: Computation, Memory, dan Evolution. Computation pake Max Mode — generate 5 kandidat solusi paralel per turn, model sendiri jadi judge. Hasilnya 10-20% improvement di SWE-Bench Pro, dengan biaya 4-5x token consumption.
Arsitektur tiga pilarnya bisa dilihat di diagram berikut:
Memory system-nya 4 layer: session checkpoint (checkpoint.md), project memory (MEMORY.md persistent cross-session), global memory (user-level preferences), dan history (SQLite FTS5 full-text search). Yang unik: writer subagent independent yang nulis checkpoint, bukan main agent — jadi main agent fokus coding, writer catat state.
Evolution layer bikin ini beda dari semua coding agent. Dream cycle tiap 7 hari dedup dan compress memory. Distill tiap 30 hari extract recurring patterns jadi reusable skills. Dynamic Workflow: main agent generate JavaScript script yang dijalankan di sandbox, dispatch sub-agents via agent() dan parallel()/pipeline().
Hasilnya? Di human double-blind A/B test dengan 576 developer dan 474 real private repos (1,213 pairs), win rate 50/50 di task <200 steps. Tapi di atas 200 steps, MiMo Code win rate >65%. Benchmark self-reported: SWE-bench Verified 82% vs Claude Code 79%, SWE-bench Pro 62% vs 55%.
Status: Rilis — open source (MIT). Install satu baris, langsung jalan. Free tier MiMo-V2.5 dengan 1M token context, atau bring-your-own-model via OpenAI-compatible API.
DeepSpec — Framework Speculative Decoding dari DeepSeek
Dari deepseek-ai/DeepSpec — full-stack codebase buat training dan evaluating draft models untuk speculative decoding. MIT license, 1.4k stars dalam 2 hari sejak rilis 26 Juni 2026.
Speculative decoding itu teknik inference acceleration: draft model kecil predict multiple tokens, target model verifikasi paralel. Hasilnya: generate token lebih cepat tanpa ngurangin kualitas. Selama ini research speculative decoding susah di-reproduce karena gak ada unified framework. DeepSpec fill gap ini.
Pipeline 3 stage-nya:
Support 3 draft model algorithms: DSpark (paper DeepSeek sendiri), DFlash (arxiv 2602.06036), dan Eagle3 (arxiv 2503.01840). Config-driven: pilih algorithm dan target model via config files. Evaluation di 9 benchmarks: gsm8k, math500, aime25, humaneval, mbpp, livecodebench, mt-bench, alpaca, arena-hard-v2.
Hardware requirement-nya berat: 8 GPU default, data cache sekitar 38 TB untuk setting Qwen3-4B. Bisa dikurangi via CUDA_VISIBLE_DEVICES. Checkpoints disimpan di ~/checkpoints/<project>/<exp>/step_*.
Status: Rilis — open source (MIT). 8 GPU node recommended, bisa dikurangi. Dari tim yang sama dengan DeepSeek R1.
Qwen-AgentWorld — Language World Model yang Ngebeat GPT-5.4
Dari QwenLM/Qwen-AgentWorld — native language world model yang mensimulasikan agentic environments via long chain-of-thought reasoning. MoE architecture: 35B total / 3B active parameters, 256K context. Apache-2.0 license, 599 stars.
Training 3-stage pipeline:
Angkanya gila. Qwen-AgentWorld-397B-A17B achieve highest overall score 58.71 di AgentWorldBench, outperforming GPT-5.4 (58.25), Claude Opus 4.8 (56.59), dan Gemini 3.1 Pro (54.57). Yang lebih menarik: versi 35B-A3B (cuma 3B active params) dapet 56.39 — outperform Qwen3.5-35B-A3B tanpa LWM training (+8.66 improvement).
Yang bikin spesial: controlled simulation. Agents yang dilatih di fictional worlds generalize ke real search tasks — WideSearch F1 Item +16.29. Sim RL dengan AgentWorld-397B-A17B di 4k OOD OpenClaw environments: Claw-Eval 69.7 vs 65.4, QwenClawBench 55.0 vs 47.9.
Native world model artinya environment modeling adalah training objective dari CPT stage — bukan post-hoc add-on. 7 domains unified dalam 1 model, sementara frontier models lain separate per domain.
Status: Rilis — open source (Apache-2.0). Model weights di HuggingFace dan ModelScope. Evaluation benchmark AgentWorldBench juga dirilis.
Godcoder — Local-First Coding Agent, Code Gak Pernah Leave Machine
Dari eli-labz/Godcoder — local-first AI coding agent sebagai native desktop app. Built with Rust + Tauri 2. 240 stars sejak rilis kemarin (27 Juni 2026). MIT license.
Privacy-first: code lo gak pernah transit vendor backend. API requests langsung dari mesin lo ke model provider (OpenAI, Anthropic, atau OpenAI-compatible API). Bring your own LLM key. Untuk perusahaan dengan data-residency atau IP policy strict, ini solve masalah fundamental.
Arsitekturnya:
Pure-Rust agent core dengan 5 modes: Ask, Plan, Coding, Freestyle, Harness. In-place file editing dengan checkpoint/rewind. MCP server support (stdio, HTTP, SSE). Voice API integration. Context Engine opsional: tree-sitter → Qdrant vector + FalkorDB call-graph + BM25 lexical search.
Yang paling menarik: Harness mode. Agent build dan improve harness-nya sendiri real-time — setiap iterasi bikin 1 change, verify dengan project's own checks, keep kalau improvement. Ini self-improving agent loop yang belum banyak dijajaki tools lain.
Status: Beta — open source. Baru rilis kemarin, 240 stars. Desktop app native, bukan terminal. Local-first dengan bring-your-own-key.
GLiGuard — Guardrail 300M Params, 16x Lebih Cepat dari SOTA
Dari Pioneer AI (Fastino Labs) — model 300 juta parameter untuk content moderation dan safety classification. Evaluasi multiple safety dimensions dalam single forward pass. Apache 2.0 license di HuggingFace.
Arsitektur encoder-based, bukan decoder seperti kebanyakan guardrail. Reframes safety moderation sebagai text classification: encode input text dan task definitions bersama, score semua labels simultaneously dalam single forward pass. 4 moderation tasks concurrent: safety classification, jailbreak strategy detection (11 strategies), harm category detection (14 categories), dan refusal detection.
Metriknya gila. 16.2x higher throughput (133 vs 8.2 samples/s), 16.6x lower latency (26ms vs 426ms). 87.7 average F1 prompt classification — within 1.7 points dari best model PolyGuard-Qwen (89.4) yang 23x lebih besar. 82.7 response classification — di belakang Qwen3Guard-8B (84.1) yang 26x lebih besar.
Outperforms LlamaGuard4-12B, ShieldGemma-27B, dan NemoGuard-8B meskipun 23-90x lebih kecil. Single GPU — practical untuk individual developers. Guardrail models kritikal buat agentic AI: protect user dari harmful output, protect model dari abuse.
Status: Rilis — open source (Apache 2.0). Model di HuggingFace dan Pioneer inference platform. 300M params, jalan di single GPU.
Penutup — Agentic Coding Era Baru
Pola hari ini jelas: agentic coding bukan cuma soal model yang lebih gede. MiMo Code nunjukin harness dan engineering matter — model yang sama, harness beda, hasil beda 5 poin di SWE-bench Pro. DeepSpec bikin speculative decoding research jadi reproducible. Qwen-AgentWorld redefine gimana agent belajar dari simulasi.
Yang connects semuanya: kecil tapi fokus. MiMo Code 4-5x token tapi 10-20% accuracy gain. GLiGuard 300M vs 12B tapi 16x lebih cepat dengan accuracy setara. Godcoder local-first dengan self-improving harness loop. Ini bukan tren — ini pergeseran fundamental cara kita bangun dan deploy AI agents.
Referensi
5. Qwen-AgentWorld — Technical Report
10. AgentWorldBench
