Back

source-summary

Recordings 45

Recordings 45

Recordings-45-.txt Recordings 最近在處理複雜的 PDF 或是掃描文件時,發現一個非常猛的開源文件解析模型 datalab-to/chandra 以前用傳統 OCR 掃文件,遇到雙排版、表格或是手寫字,抓出來的文字通常是一團亂,拿去餵給 AI 很容易讓 AI 產生幻覺 而 Chandra 最厲害的地方在於它主打「完美保留結構」 它不只會辨識文字,還能把整張截圖或 PDF 裡的表格、數學公式、甚至手寫的表單跟打勾的核取方塊,原封不動地轉換成乾淨的 Markdown 或 HTML 它的手寫辨識能力更是強得誇張,連草寫或舊手稿都能處理 如果你正在做 RAG 知識庫,或是需要把大量紙本表單數位化餵給 Agent 處理,強烈建議試試這個模型,它能幫你省下極大量清洗資料的時間

Key Takeaways

Related: overview.

Source Files