raw/articles/recordings-45.txt
recordings-45.txt
# Mobile Capture 20260510T131118+0000-local-317dc17ab1d4
Captured: 2026-05-10T13:11:18+00:00
Source: local
From: macbook
Original files:
- Recordings-45-.txt
## Content
# Recordings-45-.txt
Recordings
最近在處理複雜的 PDF 或是掃描文件時,發現一個非常猛的開源文件解析模型 datalab-to/chandra
以前用傳統 OCR 掃文件,遇到雙排版、表格或是手寫字,抓出來的文字通常是一團亂,拿去餵給 AI 很容易讓 AI 產生幻覺
而 Chandra 最厲害的地方在於它主打「完美保留結構」
它不只會辨識文字,還能把整張截圖或 PDF 裡的表格、數學公式、甚至手寫的表單跟打勾的核取方塊,原封不動地轉換成乾淨的 Markdown 或 HTML
它的手寫辨識能力更是強得誇張,連草寫或舊手稿都能處理
如果你正在做 RAG 知識庫,或是需要把大量紙本表單數位化餵給 Agent 處理,強烈建議試試這個模型,它能幫你省下極大量清洗資料的時間