PDF、Webサイト、電子書籍などをMarkdownやJSON形式に変換するオープンソースなツール。学術論文などが主なターゲットっぽい?数式や表などもLaTeXに変換してくれるらしい。GPU搭載ならアクセラレーションとして動作可
---
GitHub - opendatalab/MinerU: A one-stop, open-source, high-quality data extraction tool, supports PDF/webpage/e-book extraction.一站式开源高质量数据提取工具,支持PDF/网页/多格式电子书提取。
https://github.com/opendatalab/MinerU
#bookmarks