AI & Open Source Daily — 29 Juni 2026
DeepSpec toolkit speculative decoding dari DeepSeek, Awesome Agent Evals, CADAM text-to-CAD YC W25, peerd browser agent, Lemma workspace human-agent collaboration.
Hari ini tema-nya jelas: tooling. Dari speculative decoding toolkit DeepSeek yang bikin inference LLM makin cepat, sampai workspace yang ngerancang ulang gimana human dan AI agent kerja bareng. Lima proyek open source yang baru aja naik — semuanya ngejawab pertanyaan 'gimana caranya bikin AI lebih practical buat dipakai beneran?'
DeepSpec — DeepSeek Buka Source Toolkit Spekulative Decoding Lengkap
Dari deepseek-ai/DeepSpec — full-stack codebase untuk training dan evaluating draft models di speculative decoding. Dalam 3 hari udah 2,542 stars. MIT License, dirilis 26 Juni 2026.
Speculative decoding itu teknik inference acceleration yang paling practical buat LLM production. Draft model kecil menebak token berikutnya, target model verifikasi paralel — jadi lo generate beberapa token per forward pass. DeepSpec nyatet tiga algoritma dalam satu pipeline: DSpark, DFlash, dan Eagle3.
Yang bikin ini beda: DeepSeek buka source code lengkap plus pre-trained checkpoints untuk 4 target model — Qwen3-4B, Qwen3-8B, Qwen3-14B, Gemma-4-12B-IT. Developer yang jalanin LLM di production bisa langsung pakai checkpoints-nya tanpa training dari nol.
Sebelumnya, setiap algoritma speculative decoding punya repo terpisah dengan setup beda-beda. Eagle3 dari SafeAILab cuma provide inference code plus checkpoints, gak ada training pipeline. DFlash dari z-lab sama — code terpisah. DeepSpec menyatukan keduanya plus DSpark dalam satu config system.
Arsitekturnya tiga stage — data preparation, training, evaluation. Bisa dilihat di diagram berikut:
Coba liat cara pakainya — training dan eval tinggal jalanin script:
Eagle3 claim speedup ratio up to 6.5x dengan training-time test technique yang abandon feature prediction untuk direct token prediction. DSpark adalah kontribusi baru — paper terpisah ada di repo. Satu catatan: data preparation default butuh ~38TB storage untuk cache.
Status: Rilis — open source (MIT License).
Awesome Agent Evals — 443+ Resource Evaluasi AI Agent yang Gak BS
Dari benchflow-ai/awesome-evals — kurasi 443+ links ke paper, blog, talk, tool, dan benchmark untuk building dan evaluating AI agents. 569 stars dalam 5 hari. Dirilis 24 Juni 2026.
Bedanya dari awesome-list biasa: ini bukan link dump. Setiap entry dianotasi — ada penjelasan kenapa masuk, URL diverifikasi, dan tool yang udah dead di-prune. Ada marker untuk resource 2025-2026 dan caveat yang explicit.
Evaluation infrastructure untuk AI agent adalah masalah paling underserved di LLM engineering sekarang. Chat eval cukup pakai spreadsheet. Agent eval butuh system: trajectory grading, world-state deltas, multi-turn evaluation, tool-use assessment.
Yang paling useful: file PATTERNS.md. Berisi runnable code pattern — LLM-as-judge aligned to humans, pass@k/pass^k, code-based assertions, error analysis dengan open/axial coding, trajectory evaluation, CI gating, verifiable rewards. Bisa di-copy langsung.
Bedanya dari OpenAI atau Anthropic eval docs: repo ini independent, cover kritik juga. Ada section safety/adversarial evaluation dan benchmark integrity — contamination, saturation, leaderboard gaming. Must-read starter set 12 paper untuk onboarding cepat.
Status: Rilis — open source.
CADAM — Text-to-CAD Open Source dari YC W25, 4.6k Stars
Dari Adam-CAD/CADAM — open-source text-to-CAD web application dari Adam (YC W25). User ketik deskripsi part dalam natural language, AI generate 3D CAD model yang editable. 4,670 stars, 214 points di HN.
Text-to-CAD adalah salah satu aplikasi AI yang paling concrete di manufacturing. Bukannya generate text atau image, CADAM generate 3D model yang bisa langsung di-manufacture. Dari nulis spec ke CAD model dalam detik.
Stack-nya TypeScript, web-based. Sebagai YC W25 company, ini bukan side project — ada backing dan roadmap. Open-source berarti community bisa contribute dan self-host. Trade-off: focus ke engineering part, bukan character atau art 3D.
Bedanya dari commercial CAD AI kayak Onshape AI atau Fusion 360 co-pilot: CADAM open-source dan bisa self-host. Bedanya dari text-to-3D model kayak Meshy atau Shap-E: CADAM target engineering CAD — STEP, parametric — bukan mesh atau visual 3D.
Status: Rilis — open source.
peerd — AI Agent Harness yang Jalan 100% di Browser
Dari NotASithLord/peerd — AI agent harness pertama yang native ke browser. Chrome/Firefox extension, jalanin agent loop langsung di browser lo. 224 stars, 74 points di HN.
Mayoritas AI agent tool butuh backend server — proxy API key, run sandbox, store state. peerd eliminate itu semua. BYOK, no backend, no telemetry. Agent jalan 100% di client.
Compute sandboxed: JS notebook untuk code execution, WASM Linux VM untuk heavier workload, client-side app untuk task spesifik. P2P sharing berarti agent bisa share hasil build ke peer lain tanpa server.
Tapi trade-off jelas: bound sama browser sandbox, gak bisa akses filesystem host atau system-level resource. Radikal buat developer yang concern soal privacy dan cost, tapi bukan untuk heavy ML workload.
Bedanya dari OpenDevin atau SWE-agent: peerd gak butuh Docker atau server. Bedanya dari Browser Use atau Playwright agent: peerd punya harness loop dengan sandbox compute, bukan cuma web scraping.
Status: Rilis — open source.
Lemma — Workspace Dimana Human dan AI Agent Kerja Bareng
Dari lemma-work/lemma-platform — open-source workspace untuk collaboration antara human dan AI agent. 169 stars. Dirilis 23 Juni 2026. AGPLv3 core, Apache-2.0 SDKs.
Konsep utamanya: pod — self-contained workspace dengan tables, files, workflows, permissions, apps, agents. Agent punya role, own task, dan ikut permission system. Bukan cuma chatbot di sidebar.
Output agent masuk sebagai row di table, bukan paragraph di chat scrollback. Lemma argue bahwa chat is not where work lives. Real work punya owner, state, steps yang nunggu human decision, dan action yang agent gak boleh take sendiri.
Local-first — jalan di Docker/Podman, cloud option di lemma.work. Pod bisa di-export sebagai directory of plain files, portable antar mesin. Model provider flexible: Claude atau ChatGPT subscription via local login, custom keys, atau local model.
Bedanya dari CrewAI atau LangGraph: Lemma bukan agent framework, tapi workspace dimana agent framework apapun bisa jalan via SDK. Bedanya dari OpenDevin atau Cursor: Lemma gak fokus ke coding doang, tapi ke general work management — lead qualification, content review, approval queue.
Status: Rilis — open source (AGPLv3 core, Apache-2.0 SDKs).
Pola hari ini: production-ready tooling. DeepSpec kasih checkpoints siap pakai buat speculative decoding. CADAM bikin text-to-CAD accessible. Awesome Agent Evals ngumpulin eval infrastructure yang selama ini terpisah-pisah.
peerd dan Lemma ngerancang ulang dimana dan gimana agent harus jalan. Semua jawab satu pertanyaan: AI sudah cukup pintar — sekarang gimana bikin ia berguna?
