AI & Open Source Daily — 23 Juni 2026
Deep dive: Omnigent meta-harness, shadcn/improve code audit, MiMo-Code self-improving AI assistant, Baidu Unlimited-OCR one-shot parsing, Text-to-Lottie animasi dari prompt, dan FUTO Swipe open source swipe typing.
Beberapa hari terakhir ini lumayan panas buat open source. Bukan cuma soal rilis biasa — ada pergeseran paradigma yang layak dicermati: dari agent framework yang bener-bener mikirin isolasi, tool audit yang gak cuma nge-scan permukaan, sampe OCR yang bisa handle dokumen panjang dalam satu shot. Berikut breakdown detailnya.
1. Omnigent — Agent Framework dengan Isolasi Beneran
Omnigent dari omnigent-ai/omnigent (4.5k stars) bukan cuma agent framework biasa. Ini meta-harness: layer orchestration di atas multiple agent runtime — Claude Code, Codex, Pi, Cursor, OpenAI Agents SDK, sampe agent kustom lo sendiri.
Yang bikin ini menarik: Omnigent gak maksa lo pilih satu agent. Lo bisa pake Claude Code buat coding, OpenAI Agents buat research, dan agent lo sendiri buat task spesifik — semua dalam satu session yang sama. Setiap agent jalan di container terisolasi (bwrap di Linux, seatbelt di macOS), bukan cuma Python virtualenv.
Arsitektur:
- Policy engine — lo bisa bikin aturan: agent ini gak boleh akses network, spend cap $5 per session, atau minta approval sebelum nge-push
- Session persistence — session lo jalan terus walaupun lo tutup terminal. Bisa diakses dari browser, desktop app macOS, atau phone
- Any model — bisa pake API key sendiri, Claude/ChatGPT subscription, atau gateway apapun yang OpenAI-compatible
- Cloud sandboxes — support Modal, Daytona, Islo. Agent jalan di cloud, laptop lo cuma remote control
Contoh penggunaan:
Omnigent punya 3 example agent bawaan: Polly (multi-agent coding orchestrator — dia planning, delegate ke coding agents, terus kirim ke reviewer dari vendor beda), Debby (brainstorming dengan 2 kepala — Claude + GPT, bisa /debate buat kritik satu sama lain), dan Scribe (docs orchestrator — generate release notes, changelog dari git diff).
Bedanya sama CrewAI/LangGraph/AutoGen? Mereka framework buat build agent. Omnigent framework buat orchestrate agent — termasuk agent dari framework lain. Lebih ke meta-layer daripada agent library.
Status: ✅ Alpha, open source (Apache 2.0). Python 3.12+. Udah bisa dicoba.
2. shadcn/improve — Code Audit yang Beneran Dalem
shadcn — iya, yang bikin shadcn/ui dan sekarang di Vercel — ngerilis improve (6k+ stars). Bukan linter biasa. Ini agent skill yang mengubah cara lo approach codebase improvement.
Konsep dasarnya:
Pake model paling capable (Claude Sonnet/Opus) buat bagian yang butuh intelligence tinggi — memahami codebase, nge-judge mana yang worth dikerjain, nulis spec. Eksekusi diserahkan ke model murah. Intinya quality separation — mahal buat mikir, murah buat ngerjain.
Cara kerjanya detail:
Pertama, recon: mapping stack repo, testing conventions, build/lint commands yang jadi verification gates. Juga baca intent docs kalo ada — ADRs, PRDs, CONTEXT.md, DESIGN.md — biar keputusan yang udah diambil gak di-flag ulang sebagai masalah.
Kedua, audit parallel: 9 kategori sekaligus — correctness, security, performance, test coverage, tech debt, dependencies & migrations, DX (developer experience), docs, dan direction (feature suggestions). Setiap temuan bawa file:line evidence, impact, effort, dan confidence.
Ketiga, vetting: subagents over-report. Jadi si advisor baca ulang setiap lokasi yang disebut sebelum nunjukin ke lo. False positive di-drop, atribusi salah dikoreksi, rejection dicatat — jadi gak muncul lagi di run berikutnya.
Hasil audit dari shadcn/ui repo sendiri:
Keempat, plan generation: satu file per findings di direktori plans/. Setiap plan self-contained — semua konteks diinline: exact file paths, code excerpts, repo conventions, verified commands. Gak ada as discussed above. Verification gates: tiap langkah punya command + expected output. STOP conditions: kondisi dimana executor harus berhenti dan report.
Yang paling menarik: /improve reconcile. Next session, jalanin ini buat bersihin backlog — verify apa yang udah landed, refresh yang drifted, unblock yang stuck. Bukan fire-and-forget, tapi continuous improvement loop.
Status: ✅ Rilis, open source (MIT). Bisa dipake di agent mana pun yang support Agent Skills format.
3. MiMo-Code — Terminal AI Assistant dengan Self-Improvement
Xiaomi rilis MiMo-Code (10.5k stars) — terminal-native AI coding assistant. Tapi ini bukan copy-paste dari Claude Code/Codex. Ada beberapa inovasi unik.
Apa yang bikin beda:
Persistent Memory System — pake SQLite FTS5 full-text search. Bukan RAG, bukan vector DB. Empat jenis memori: Project memory (MEMORY.md), Session checkpoint, Scratch notes, Task progress. Memori di-inject otomatis pas session resume — agent gak perlu belajar ulang konteks project. Ini beda fundamental sama Claude Code yang tiap session start dari nol.
Intelligent Context Management — sistem checkpoint otomatis. Si agent mutusin kapan nyimpen state berdasarkan context window. Kalau context udah mau penuh, dia rebuild dari latest checkpoint + project memory + task progress + retained recent messages. Budgeted injection pake token budget buat ngontrol berapa banyak memori yang masuk ke context, dengan importance ranking.
Dream and Distill — fitur self-improvement: /dream scan session traces terbaru, extract pengetahuan persistent ke project memory, hapus entry yang udah outdated. /distill detect repeated manual workflows, package kandidat high-confidence jadi reusable skills atau subagents.
Multiple Agent Modes: build (default, full tool permissions), plan (read-only analysis mode), compose (specs-driven development dengan built-in skills untuk planning, execution, code review, TDD, debugging, verification, merging).
Goal/Stop Condition — /goal command. Agent bisa dikasih stopping condition. Pas agent mau stop, independent judge model nge-evaluasi conversation buat mastiin kondisi beneran terpenuhi. Mencegah premature stop.
MiMo-Code dibangun di atas OpenCode — jadi semua kemampuan OpenCode (multi-provider, TUI, LSP, MCP, plugins) tetap ada, plus tambahan di atasnya.
Status: ✅ Rilis, open source (MIT). Ada free channel (MiMo Auto) tanpa konfigurasi.
4. Baidu Unlimited-OCR — One-Shot Long Document Parsing
Baidu ngerilis Unlimited-OCR (3.9k stars) — model one-shot buat OCR dokumen panjang. Ini evolusi dari DeepSeek-OCR, tapi step improvement signifikan.
OCR tradisional (Tesseract, PaddleOCR, dll): potong dokumen jadi per-page, extract per page, gabungin. Masalah: konteks antar halaman ilang. Table yang nyebrang halaman? formatting error. Referensi as discussed on page 3? Konteksnya gak nyampe.
Unlimited-OCR: one-shot parsing. Seluruh dokumen diproses dalam satu pass — teks, tabel, gambar dalam dokumen. Dua mode: Gundam mode (image_size=640, crop_mode=True) untuk single image detail tinggi, Base mode (image_size=1024) untuk multi-page/PDF.
Spesifikasi: Context length 32,768 token. Support HuggingFace transformers dan SGLang deployment. Paper di arXiv: 2606.23050. Butuh NVIDIA GPU (CUDA 12.9+).
Buat konteks Indonesia: relevan buat digitalisasi dokumen UMKM — extract data dari notulen, kontrak, laporan keuangan, dokumen legal. Kombinasi OCR ini + AI buat auto-fill form compliance Permen UMKM 3/2026 yang pernah lo bahas.
Status: ✅ Rilis, open source.
5. Text-to-Lottie — Generate Animasi dari Prompt
Diffusion Studio (YC-backed) rilis Text-to-Lottie (3.6k stars) — generate production-ready Lottie animation langsung dari prompt. Bukan video, bukan GIF — Lottie JSON yang bisa dipake di web, iOS, Android, Flutter, React Native.
Ini agent skill — lo install, terus suruh coding agent lo generate animasi. Agent bakal setup workspace + player. Setiap animasi hidup sebagai scene dalam project. Scene auto-load dari public/projects dan live-update di player pas agent ngubah — lo bisa inspect, scrub, refine secara real-time.
Tips prompt: Provide SVGs atau gambar referensi (hasilnya jauh lebih baik), gunakan motion design terminology (ease-in, ease-out), minta camera movement (agent bisa simulasi via group transforms), spesifik FPS dan durasi.
Output kompatibel dengan ekosistem LottieFiles — bisa dipake di web (lottie-web), React Native (Skia Skottie), iOS (Lottie), Android (LottieAnimationView), Flutter.
Status: ✅ Rilis, open source.
6. FUTO Swipe — Open Source Swipe Typing
FUTO ngerilis model swipe typing open source — 347 poin di HN. Alternatif open source buat Gboard/SwiftKey yang selama ini dominasi. Semua on-device, nol data ke server.
Arsitektur 3 model: Encoder (635k params, universal layout-agnostic), ContextLM (1.5M params, small LM buat eliminasi kata nonsense berdasarkan konteks), Decoder (304k params, layout-specific, paling akurat).
Hasil benchmark: 3 model + beam width 300 = Top-4 fail rate ~4%. Out-of-vocabulary excluded: error rate di bawah 1%. Footprint total 2.5 juta parameter, cuma 1.36 juta aktif. Jalan di device low-end dalam milidetik.
Dataset: 1 juta swipes dari 10,000+ partisipan, MIT license, tersedia di HuggingFace. Swipe Library: C++ library buat inference + decoding + beam search — lo tinggal panggil, masukin swipe path, dapet word predictions.
Buat pengguna Android: udah bisa lewat FUTO Keyboard — keyboard offline full yang include model ini.
Status: ✅ Rilis. Demo di swipe.futo.tech.
Kesimpulan
Dari 6 project di atas, ada pola konsisten: open source AI bergerak dari chat menuju agent-centric. Bukan cuma model, tapi ekosistem — framework buat orchestrasi, tool buat improvement, sistem memori persistent, sampe deployment infra.
Omnigent dan shadcn/improve nunjukin tren quality separation — pake model mahal buat mikir, model murah buat eksekusi. MiMo-Code nunjukin masa depan AI assistant yang self-improving. Unlimited-OCR nunjukin OCR udah masuk era one-shot — gak perlu lagi chaining per-page.
Pantau terus besok untuk update berikutnya.
Referensi
1. Omnigent: https://github.com/omnigent-ai/omnigent
2. shadcn/improve: https://github.com/shadcn/improve
3. MiMo-Code: https://github.com/XiaomiMiMo/MiMo-Code
4. Unlimited-OCR: https://arxiv.org/abs/2606.23050 — https://github.com/baidu/Unlimited-OCR
5. Text-to-Lottie: https://github.com/diffusionstudio/lottie
6. FUTO Swipe: https://swipe.futo.tech/
