Back

raw/articles/recordings-45.txt

recordings-45.txt

# Mobile Capture 20260510T131118+0000-local-317dc17ab1d4

Captured: 2026-05-10T13:11:18+00:00
Source: local
From: macbook

Original files:
- Recordings-45-.txt

## Content

# Recordings-45-.txt

Recordings
最近在處理複雜的 PDF 或是掃描文件時,發現一個非常猛的開源文件解析模型 datalab-to/chandra

以前用傳統 OCR 掃文件,遇到雙排版、表格或是手寫字,抓出來的文字通常是一團亂,拿去餵給 AI 很容易讓 AI 產生幻覺

而 Chandra 最厲害的地方在於它主打「完美保留結構」

它不只會辨識文字,還能把整張截圖或 PDF 裡的表格、數學公式、甚至手寫的表單跟打勾的核取方塊,原封不動地轉換成乾淨的 Markdown 或 HTML

它的手寫辨識能力更是強得誇張,連草寫或舊手稿都能處理

如果你正在做 RAG 知識庫,或是需要把大量紙本表單數位化餵給 Agent 處理,強烈建議試試這個模型,它能幫你省下極大量清洗資料的時間