← All articles
News

AI & Open Source Daily — 23 Juni 2026

Deep dive: Omnigent meta-harness, shadcn/improve code audit, MiMo-Code self-improving AI assistant, Baidu Unlimited-OCR one-shot parsing, Text-to-Lottie animasi dari prompt, dan FUTO Swipe open source swipe typing.

Muhammad AmienMuhammad Amien·Jun 24, 2026·7 min read
AI & Open Source Daily — 23 Juni 2026

Beberapa hari terakhir ini lumayan panas buat open source. Bukan cuma soal rilis biasa — ada pergeseran paradigma yang layak dicermati: dari agent framework yang bener-bener mikirin isolasi, tool audit yang gak cuma nge-scan permukaan, sampe OCR yang bisa handle dokumen panjang dalam satu shot. Berikut breakdown detailnya.

1. Omnigent — Agent Framework dengan Isolasi Beneran

Omnigent dari omnigent-ai/omnigent (4.5k stars) bukan cuma agent framework biasa. Ini meta-harness: layer orchestration di atas multiple agent runtime — Claude Code, Codex, Pi, Cursor, OpenAI Agents SDK, sampe agent kustom lo sendiri.

Yang bikin ini menarik: Omnigent gak maksa lo pilih satu agent. Lo bisa pake Claude Code buat coding, OpenAI Agents buat research, dan agent lo sendiri buat task spesifik — semua dalam satu session yang sama. Setiap agent jalan di container terisolasi (bwrap di Linux, seatbelt di macOS), bukan cuma Python virtualenv.

Arsitektur:

  • Policy engine — lo bisa bikin aturan: agent ini gak boleh akses network, spend cap $5 per session, atau minta approval sebelum nge-push
  • Session persistence — session lo jalan terus walaupun lo tutup terminal. Bisa diakses dari browser, desktop app macOS, atau phone
  • Any model — bisa pake API key sendiri, Claude/ChatGPT subscription, atau gateway apapun yang OpenAI-compatible
  • Cloud sandboxes — support Modal, Daytona, Islo. Agent jalan di cloud, laptop lo cuma remote control

Contoh penggunaan:

Omnigent punya 3 example agent bawaan: Polly (multi-agent coding orchestrator — dia planning, delegate ke coding agents, terus kirim ke reviewer dari vendor beda), Debby (brainstorming dengan 2 kepala — Claude + GPT, bisa /debate buat kritik satu sama lain), dan Scribe (docs orchestrator — generate release notes, changelog dari git diff).

Bedanya sama CrewAI/LangGraph/AutoGen? Mereka framework buat build agent. Omnigent framework buat orchestrate agent — termasuk agent dari framework lain. Lebih ke meta-layer daripada agent library.

Status: ✅ Alpha, open source (Apache 2.0). Python 3.12+. Udah bisa dicoba.

2. shadcn/improve — Code Audit yang Beneran Dalem

shadcn — iya, yang bikin shadcn/ui dan sekarang di Vercel — ngerilis improve (6k+ stars). Bukan linter biasa. Ini agent skill yang mengubah cara lo approach codebase improvement.

Konsep dasarnya:

Pake model paling capable (Claude Sonnet/Opus) buat bagian yang butuh intelligence tinggi — memahami codebase, nge-judge mana yang worth dikerjain, nulis spec. Eksekusi diserahkan ke model murah. Intinya quality separation — mahal buat mikir, murah buat ngerjain.

Cara kerjanya detail:

Pertama, recon: mapping stack repo, testing conventions, build/lint commands yang jadi verification gates. Juga baca intent docs kalo ada — ADRs, PRDs, CONTEXT.md, DESIGN.md — biar keputusan yang udah diambil gak di-flag ulang sebagai masalah.

Kedua, audit parallel: 9 kategori sekaligus — correctness, security, performance, test coverage, tech debt, dependencies & migrations, DX (developer experience), docs, dan direction (feature suggestions). Setiap temuan bawa file:line evidence, impact, effort, dan confidence.

Ketiga, vetting: subagents over-report. Jadi si advisor baca ulang setiap lokasi yang disebut sebelum nunjukin ke lo. False positive di-drop, atribusi salah dikoreksi, rejection dicatat — jadi gak muncul lagi di run berikutnya.

Hasil audit dari shadcn/ui repo sendiri:

Keempat, plan generation: satu file per findings di direktori plans/. Setiap plan self-contained — semua konteks diinline: exact file paths, code excerpts, repo conventions, verified commands. Gak ada as discussed above. Verification gates: tiap langkah punya command + expected output. STOP conditions: kondisi dimana executor harus berhenti dan report.

Yang paling menarik: /improve reconcile. Next session, jalanin ini buat bersihin backlog — verify apa yang udah landed, refresh yang drifted, unblock yang stuck. Bukan fire-and-forget, tapi continuous improvement loop.

Status: ✅ Rilis, open source (MIT). Bisa dipake di agent mana pun yang support Agent Skills format.

3. MiMo-Code — Terminal AI Assistant dengan Self-Improvement

Xiaomi rilis MiMo-Code (10.5k stars) — terminal-native AI coding assistant. Tapi ini bukan copy-paste dari Claude Code/Codex. Ada beberapa inovasi unik.

Apa yang bikin beda:

Persistent Memory System — pake SQLite FTS5 full-text search. Bukan RAG, bukan vector DB. Empat jenis memori: Project memory (MEMORY.md), Session checkpoint, Scratch notes, Task progress. Memori di-inject otomatis pas session resume — agent gak perlu belajar ulang konteks project. Ini beda fundamental sama Claude Code yang tiap session start dari nol.

Intelligent Context Management — sistem checkpoint otomatis. Si agent mutusin kapan nyimpen state berdasarkan context window. Kalau context udah mau penuh, dia rebuild dari latest checkpoint + project memory + task progress + retained recent messages. Budgeted injection pake token budget buat ngontrol berapa banyak memori yang masuk ke context, dengan importance ranking.

Dream and Distill — fitur self-improvement: /dream scan session traces terbaru, extract pengetahuan persistent ke project memory, hapus entry yang udah outdated. /distill detect repeated manual workflows, package kandidat high-confidence jadi reusable skills atau subagents.

Multiple Agent Modes: build (default, full tool permissions), plan (read-only analysis mode), compose (specs-driven development dengan built-in skills untuk planning, execution, code review, TDD, debugging, verification, merging).

Goal/Stop Condition — /goal command. Agent bisa dikasih stopping condition. Pas agent mau stop, independent judge model nge-evaluasi conversation buat mastiin kondisi beneran terpenuhi. Mencegah premature stop.

MiMo-Code dibangun di atas OpenCode — jadi semua kemampuan OpenCode (multi-provider, TUI, LSP, MCP, plugins) tetap ada, plus tambahan di atasnya.

Status: ✅ Rilis, open source (MIT). Ada free channel (MiMo Auto) tanpa konfigurasi.

4. Baidu Unlimited-OCR — One-Shot Long Document Parsing

Baidu ngerilis Unlimited-OCR (3.9k stars) — model one-shot buat OCR dokumen panjang. Ini evolusi dari DeepSeek-OCR, tapi step improvement signifikan.

OCR tradisional (Tesseract, PaddleOCR, dll): potong dokumen jadi per-page, extract per page, gabungin. Masalah: konteks antar halaman ilang. Table yang nyebrang halaman? formatting error. Referensi as discussed on page 3? Konteksnya gak nyampe.

Unlimited-OCR: one-shot parsing. Seluruh dokumen diproses dalam satu pass — teks, tabel, gambar dalam dokumen. Dua mode: Gundam mode (image_size=640, crop_mode=True) untuk single image detail tinggi, Base mode (image_size=1024) untuk multi-page/PDF.

Spesifikasi: Context length 32,768 token. Support HuggingFace transformers dan SGLang deployment. Paper di arXiv: 2606.23050. Butuh NVIDIA GPU (CUDA 12.9+).

Buat konteks Indonesia: relevan buat digitalisasi dokumen UMKM — extract data dari notulen, kontrak, laporan keuangan, dokumen legal. Kombinasi OCR ini + AI buat auto-fill form compliance Permen UMKM 3/2026 yang pernah lo bahas.

Status: ✅ Rilis, open source.

5. Text-to-Lottie — Generate Animasi dari Prompt

Diffusion Studio (YC-backed) rilis Text-to-Lottie (3.6k stars) — generate production-ready Lottie animation langsung dari prompt. Bukan video, bukan GIF — Lottie JSON yang bisa dipake di web, iOS, Android, Flutter, React Native.

Ini agent skill — lo install, terus suruh coding agent lo generate animasi. Agent bakal setup workspace + player. Setiap animasi hidup sebagai scene dalam project. Scene auto-load dari public/projects dan live-update di player pas agent ngubah — lo bisa inspect, scrub, refine secara real-time.

Tips prompt: Provide SVGs atau gambar referensi (hasilnya jauh lebih baik), gunakan motion design terminology (ease-in, ease-out), minta camera movement (agent bisa simulasi via group transforms), spesifik FPS dan durasi.

Output kompatibel dengan ekosistem LottieFiles — bisa dipake di web (lottie-web), React Native (Skia Skottie), iOS (Lottie), Android (LottieAnimationView), Flutter.

Status: ✅ Rilis, open source.

6. FUTO Swipe — Open Source Swipe Typing

FUTO ngerilis model swipe typing open source — 347 poin di HN. Alternatif open source buat Gboard/SwiftKey yang selama ini dominasi. Semua on-device, nol data ke server.

Arsitektur 3 model: Encoder (635k params, universal layout-agnostic), ContextLM (1.5M params, small LM buat eliminasi kata nonsense berdasarkan konteks), Decoder (304k params, layout-specific, paling akurat).

Hasil benchmark: 3 model + beam width 300 = Top-4 fail rate ~4%. Out-of-vocabulary excluded: error rate di bawah 1%. Footprint total 2.5 juta parameter, cuma 1.36 juta aktif. Jalan di device low-end dalam milidetik.

Dataset: 1 juta swipes dari 10,000+ partisipan, MIT license, tersedia di HuggingFace. Swipe Library: C++ library buat inference + decoding + beam search — lo tinggal panggil, masukin swipe path, dapet word predictions.

Buat pengguna Android: udah bisa lewat FUTO Keyboard — keyboard offline full yang include model ini.

Status: ✅ Rilis. Demo di swipe.futo.tech.

Kesimpulan

Dari 6 project di atas, ada pola konsisten: open source AI bergerak dari chat menuju agent-centric. Bukan cuma model, tapi ekosistem — framework buat orchestrasi, tool buat improvement, sistem memori persistent, sampe deployment infra.

Omnigent dan shadcn/improve nunjukin tren quality separation — pake model mahal buat mikir, model murah buat eksekusi. MiMo-Code nunjukin masa depan AI assistant yang self-improving. Unlimited-OCR nunjukin OCR udah masuk era one-shot — gak perlu lagi chaining per-page.

Pantau terus besok untuk update berikutnya.

Referensi

1. Omnigent: https://github.com/omnigent-ai/omnigent

2. shadcn/improve: https://github.com/shadcn/improve

3. MiMo-Code: https://github.com/XiaomiMiMo/MiMo-Code

4. Unlimited-OCR: https://arxiv.org/abs/2606.23050 — https://github.com/baidu/Unlimited-OCR

5. Text-to-Lottie: https://github.com/diffusionstudio/lottie

6. FUTO Swipe: https://swipe.futo.tech/

Share this article
XLinkedInWhatsAppTelegram
Muhammad Amien

Muhammad Amien

Building software that bridges the gap between design and engineering. React, Laravel, and the art of shipping.

Have a project in mind?

I'm currently available for freelance work and collaboration. Let's build something together.

Get in Touch →

Comments

0 responses
Loading...
Loading comments