News

AI & Open Source Daily — 23 Juni 2026

Deep dive: Omnigent meta-harness, shadcn/improve code audit, MiMo-Code self-improving AI assistant, Baidu Unlimited-OCR one-shot parsing, Text-to-Lottie animasi dari prompt, dan FUTO Swipe open source swipe typing.

Muhammad Amien·Jun 24, 2026·7 min read

Beberapa hari terakhir ini lumayan panas buat open source. Bukan cuma soal rilis biasa — ada pergeseran paradigma yang layak dicermati: dari agent framework yang bener-bener mikirin isolasi, tool audit yang gak cuma nge-scan permukaan, sampe OCR yang bisa handle dokumen panjang dalam satu shot. Berikut breakdown detailnya.

1. Omnigent — Agent Framework dengan Isolasi Beneran

Omnigent dari omnigent-ai/omnigent (4.5k stars) bukan cuma agent framework biasa. Ini meta-harness: layer orchestration di atas multiple agent runtime — Claude Code, Codex, Pi, Cursor, OpenAI Agents SDK, sampe agent kustom lo sendiri.

Yang bikin ini menarik: Omnigent gak maksa lo pilih satu agent. Lo bisa pake Claude Code buat coding, OpenAI Agents buat research, dan agent lo sendiri buat task spesifik — semua dalam satu session yang sama. Setiap agent jalan di container terisolasi (bwrap di Linux, seatbelt di macOS), bukan cuma Python virtualenv.

Arsitektur:

Policy engine — lo bisa bikin aturan: agent ini gak boleh akses network, spend cap $5 per session, atau minta approval sebelum nge-push
Session persistence — session lo jalan terus walaupun lo tutup terminal. Bisa diakses dari browser, desktop app macOS, atau phone
Any model — bisa pake API key sendiri, Claude/ChatGPT subscription, atau gateway apapun yang OpenAI-compatible
Cloud sandboxes — support Modal, Daytona, Islo. Agent jalan di cloud, laptop lo cuma remote control

Contoh penggunaan:

Omnigent punya 3 example agent bawaan: Polly (multi-agent coding orchestrator — dia planning, delegate ke coding agents, terus kirim ke reviewer dari vendor beda), Debby (brainstorming dengan 2 kepala — Claude + GPT, bisa /debate buat kritik satu sama lain), dan Scribe (docs orchestrator — generate release notes, changelog dari git diff).

Bedanya sama CrewAI/LangGraph/AutoGen? Mereka framework buat build agent. Omnigent framework buat orchestrate agent — termasuk agent dari framework lain. Lebih ke meta-layer daripada agent library.

Status: ✅ Alpha, open source (Apache 2.0). Python 3.12+. Udah bisa dicoba.

2. shadcn/improve — Code Audit yang Beneran Dalem

shadcn — iya, yang bikin shadcn/ui dan sekarang di Vercel — ngerilis improve (6k+ stars). Bukan linter biasa. Ini agent skill yang mengubah cara lo approach codebase improvement.

Konsep dasarnya:

Pake model paling capable (Claude Sonnet/Opus) buat bagian yang butuh intelligence tinggi — memahami codebase, nge-judge mana yang worth dikerjain, nulis spec. Eksekusi diserahkan ke model murah. Intinya quality separation — mahal buat mikir, murah buat ngerjain.

Cara kerjanya detail:

Pertama, recon: mapping stack repo, testing conventions, build/lint commands yang jadi verification gates. Juga baca intent docs kalo ada — ADRs, PRDs, CONTEXT.md, DESIGN.md — biar keputusan yang udah diambil gak di-flag ulang sebagai masalah.

Kedua, audit parallel: 9 kategori sekaligus — correctness, security, performance, test coverage, tech debt, dependencies & migrations, DX (developer experience), docs, dan direction (feature suggestions). Setiap temuan bawa file:line evidence, impact, effort, dan confidence.

Ketiga, vetting: subagents over-report. Jadi si advisor baca ulang setiap lokasi yang disebut sebelum nunjukin ke lo. False positive di-drop, atribusi salah dikoreksi, rejection dicatat — jadi gak muncul lagi di run berikutnya.

Hasil audit dari shadcn/ui repo sendiri:

Keempat, plan generation: satu file per findings di direktori plans/. Setiap plan self-contained — semua konteks diinline: exact file paths, code excerpts, repo conventions, verified commands. Gak ada as discussed above. Verification gates: tiap langkah punya command + expected output. STOP conditions: kondisi dimana executor harus berhenti dan report.

Yang paling menarik: /improve reconcile. Next session, jalanin ini buat bersihin backlog — verify apa yang udah landed, refresh yang drifted, unblock yang stuck. Bukan fire-and-forget, tapi continuous improvement loop.

Status: ✅ Rilis, open source (MIT). Bisa dipake di agent mana pun yang support Agent Skills format.

3. MiMo-Code — Terminal AI Assistant dengan Self-Improvement

Xiaomi rilis MiMo-Code (10.5k stars) — terminal-native AI coding assistant. Tapi ini bukan copy-paste dari Claude Code/Codex. Ada beberapa inovasi unik.

Apa yang bikin beda:

Persistent Memory System — pake SQLite FTS5 full-text search. Bukan RAG, bukan vector DB. Empat jenis memori: Project memory (MEMORY.md), Session checkpoint, Scratch notes, Task progress. Memori di-inject otomatis pas session resume — agent gak perlu belajar ulang konteks project. Ini beda fundamental sama Claude Code yang tiap session start dari nol.

Intelligent Context Management — sistem checkpoint otomatis. Si agent mutusin kapan nyimpen state berdasarkan context window. Kalau context udah mau penuh, dia rebuild dari latest checkpoint + project memory + task progress + retained recent messages. Budgeted injection pake token budget buat ngontrol berapa banyak memori yang masuk ke context, dengan importance ranking.

Dream and Distill — fitur self-improvement: /dream scan session traces terbaru, extract pengetahuan persistent ke project memory, hapus entry yang udah outdated. /distill detect repeated manual workflows, package kandidat high-confidence jadi reusable skills atau subagents.

Multiple Agent Modes: build (default, full tool permissions), plan (read-only analysis mode), compose (specs-driven development dengan built-in skills untuk planning, execution, code review, TDD, debugging, verification, merging).

Goal/Stop Condition — /goal command. Agent bisa dikasih stopping condition. Pas agent mau stop, independent judge model nge-evaluasi conversation buat mastiin kondisi beneran terpenuhi. Mencegah premature stop.

MiMo-Code dibangun di atas OpenCode — jadi semua kemampuan OpenCode (multi-provider, TUI, LSP, MCP, plugins) tetap ada, plus tambahan di atasnya.

Status: ✅ Rilis, open source (MIT). Ada free channel (MiMo Auto) tanpa konfigurasi.

4. Baidu Unlimited-OCR — One-Shot Long Document Parsing

Baidu ngerilis Unlimited-OCR (3.9k stars) — model one-shot buat OCR dokumen panjang. Ini evolusi dari DeepSeek-OCR, tapi step improvement signifikan.

OCR tradisional (Tesseract, PaddleOCR, dll): potong dokumen jadi per-page, extract per page, gabungin. Masalah: konteks antar halaman ilang. Table yang nyebrang halaman? formatting error. Referensi as discussed on page 3? Konteksnya gak nyampe.

Unlimited-OCR: one-shot parsing. Seluruh dokumen diproses dalam satu pass — teks, tabel, gambar dalam dokumen. Dua mode: Gundam mode (image_size=640, crop_mode=True) untuk single image detail tinggi, Base mode (image_size=1024) untuk multi-page/PDF.

Spesifikasi: Context length 32,768 token. Support HuggingFace transformers dan SGLang deployment. Paper di arXiv: 2606.23050. Butuh NVIDIA GPU (CUDA 12.9+).

Buat konteks Indonesia: relevan buat digitalisasi dokumen UMKM — extract data dari notulen, kontrak, laporan keuangan, dokumen legal. Kombinasi OCR ini + AI buat auto-fill form compliance Permen UMKM 3/2026 yang pernah lo bahas.

Status: ✅ Rilis, open source.

5. Text-to-Lottie — Generate Animasi dari Prompt

Diffusion Studio (YC-backed) rilis Text-to-Lottie (3.6k stars) — generate production-ready Lottie animation langsung dari prompt. Bukan video, bukan GIF — Lottie JSON yang bisa dipake di web, iOS, Android, Flutter, React Native.

Ini agent skill — lo install, terus suruh coding agent lo generate animasi. Agent bakal setup workspace + player. Setiap animasi hidup sebagai scene dalam project. Scene auto-load dari public/projects dan live-update di player pas agent ngubah — lo bisa inspect, scrub, refine secara real-time.

Tips prompt: Provide SVGs atau gambar referensi (hasilnya jauh lebih baik), gunakan motion design terminology (ease-in, ease-out), minta camera movement (agent bisa simulasi via group transforms), spesifik FPS dan durasi.

Output kompatibel dengan ekosistem LottieFiles — bisa dipake di web (lottie-web), React Native (Skia Skottie), iOS (Lottie), Android (LottieAnimationView), Flutter.

Status: ✅ Rilis, open source.

6. FUTO Swipe — Open Source Swipe Typing

FUTO ngerilis model swipe typing open source — 347 poin di HN. Alternatif open source buat Gboard/SwiftKey yang selama ini dominasi. Semua on-device, nol data ke server.

Arsitektur 3 model: Encoder (635k params, universal layout-agnostic), ContextLM (1.5M params, small LM buat eliminasi kata nonsense berdasarkan konteks), Decoder (304k params, layout-specific, paling akurat).

Hasil benchmark: 3 model + beam width 300 = Top-4 fail rate ~4%. Out-of-vocabulary excluded: error rate di bawah 1%. Footprint total 2.5 juta parameter, cuma 1.36 juta aktif. Jalan di device low-end dalam milidetik.

Dataset: 1 juta swipes dari 10,000+ partisipan, MIT license, tersedia di HuggingFace. Swipe Library: C++ library buat inference + decoding + beam search — lo tinggal panggil, masukin swipe path, dapet word predictions.

Buat pengguna Android: udah bisa lewat FUTO Keyboard — keyboard offline full yang include model ini.

Status: ✅ Rilis. Demo di swipe.futo.tech.

Kesimpulan

Dari 6 project di atas, ada pola konsisten: open source AI bergerak dari chat menuju agent-centric. Bukan cuma model, tapi ekosistem — framework buat orchestrasi, tool buat improvement, sistem memori persistent, sampe deployment infra.

Omnigent dan shadcn/improve nunjukin tren quality separation — pake model mahal buat mikir, model murah buat eksekusi. MiMo-Code nunjukin masa depan AI assistant yang self-improving. Unlimited-OCR nunjukin OCR udah masuk era one-shot — gak perlu lagi chaining per-page.

Pantau terus besok untuk update berikutnya.

Referensi

1. Omnigent: https://github.com/omnigent-ai/omnigent

2. shadcn/improve: https://github.com/shadcn/improve

3. MiMo-Code: https://github.com/XiaomiMiMo/MiMo-Code

4. Unlimited-OCR: https://arxiv.org/abs/2606.23050 — https://github.com/baidu/Unlimited-OCR

5. Text-to-Lottie: https://github.com/diffusionstudio/lottie

6. FUTO Swipe: https://swipe.futo.tech/