当前位置：首页>免费下载>马光 | HiOCR批量文字识别工具免费下载与说明

马光 | HiOCR批量文字识别工具免费下载与说明

2026-08-02 14:28:05

HiOCR批量文字识别工具免费下载与说明

马光

澳门理工大学

一、软件简介

HiOCR是一款面向新手的批量OCR（文字识别）工具，专为零基础用户处理大量PDF文档和图片设计：Windows系统下，双击exe文件打开界面，拖入文件/文件夹即可自动排队，一键开始后全程可视化进度，识别完成自动导出 Markdown文件，无需学习复杂参数与命令。本软件完全免费！

软件名称：HiOCR

最新版本：v2.3

适配系统：Windows 10/11等系统

开发者：马光

下载与更新地址1：

https://pan.baidu.com/s/1WchKiuVp9kKkqj4yqSBg4Q?pwd=6666 提取码: 6666

下载与更新地址2：

https://github.com/maguang/HiOCR

核心亮点

开箱即用：适用于Windows 10/11系统，直接双击exe即可运行。

批量处理：支持拖拽文件夹或多个文件，自动队列处理。

多模型支持：集成MinerU（免费）、硅基流动（DeepSeek-OCR、GLM-4.1V-9B-Thinking，二者均免费）、阿里通义千问、字节豆包、Google Gemini等。支持自定义模型ID。

智能识别：利用大模型能力，识别文字、保留表格结构，尤其是部分模型擅长处理中文古籍。

结果导出：自动保存为 Markdown (.md) 格式，方便编辑和阅读。.md文件可以右键使用“记事本”打开，也可以下载安装Typora、MarkText、VS Code等打开。

工作完成页面

二、功能详解

API 配置

在配置面板提供多个AI 模型服务商选项。支持“自定义模型”功能：选择下拉列表末尾的“自定义模型”，可输入任意兼容的模型 ID。

参数调整

支持调整并发线程数（提高速度）、PDF 渲染 DPI（提高清晰度）。

任务管理

·添加文件：点击按钮或拖拽文件/文件夹到待识别区域。

·进度监控：实时显示总进度、当前文件进度、页数进度。

·自动清理：识别成功的文件自动移出列表，失败的文件保留以便重试。

结果查看

输出到用户自定义目录（默认输出到“D:\OCR输出”）。

三、模型选择指南

不同模型各有千秋，建议根据文档类型选择：

1. MinerU (官方 API)

参考地址:

https://mineru.net/apiManage/docs

推荐场景: 学术图书论文 / 复杂 PDF 布局 / 导出 Markdown。

优点: 免费，每天至少2000页额度；由 OpenDataLab 开发，专为 PDF 版面分析优化，公式与表格提取能力强。

缺点: 中文古籍识别效果较差；单个文件有大小和页码限制：≤200M，≤600页。

2. 硅基流动 (DeepSeek-OCR、GLM-4.1V-9B-Thinking)，免费

参考地址:

https://cloud.siliconflow.cn/

推荐场景: 通用文档 / 代码识别 / 高性价比方案。

优点: 免费额度高，推理速度快。

缺点: 复杂版面还原度稍逊，精确度不高，中文古籍识别效果较差。

3. 字节豆包 (Doubao)

参考地址:

https://www.volcengine.com/docs/82379/1541594?lang=zh

推荐场景: 中文古籍 / 普通文档和图片 / 快速识别。

优点: 中文语义理解能力强，响应速度快，对常规古籍识别效果良好。

缺点: 有敏感词监测。

4. 阿里通义千问 (Qwen)

参考地址:

https://help.aliyun.com/zh/model-studio/get-api-key?spm=0.0.0.i1

推荐场景: 综合首选 / 中文古籍 / 复杂排版还原。

优点: 识别率顶尖，对古籍、手写体和竖排文字支持极好，版面还原度最高。

缺点: 监测较严，会拒绝识别带有敏感词的整页内容。

详细的操作流程

5. 智谱 GLM (ZhipuAI)

参考地址:

https://docs.bigmodel.cn/cn/api/introduction

推荐场景: 中文古籍 / 普通文档和图片 / 中文长文档处理。

优点: 商用性价比高。

缺点: 在极高分辨率图片的精细识别上，相较于 Qwen3-Max 略有差距。

6. Google Gemini

参考地址:

https://aistudio.google.com/app/api-keys?hl=zh-cn

推荐场景: 外文文档 / 多语言混合 / 极长文本。

优点: 全球领先多模态能力，多语言支持极佳，支持超长上下文。

缺点: 在国内使用需要特殊的网络环境 (VPN)。

[推荐配置]* 识别中文古籍：强烈推荐通义千问、豆包。* 识别普通文档：可以使用MinerU、 DeepSeek-OCR、智谱 GLM。

四、API 申请与配置教程

本软件基于大模型 API，需要您自行申请并填入 API Key。

1. MinerU（官方 API）

1）访问：

https://mineru.net/，注册并登录。

2）在官网申请 Token（API Token）。

3）将 Token 填入软件的 API Key（或 Token）字段。

4）如软件需要填写鉴权方式，请使用：Authorization: Bearer <Token>

5）注意：如遇失败，请检查文件大小与页数是否超限（例如：200MB、600页等限制）。

2. 硅基流动 (DeepSeek/VLM)

1）访问：

https://cloud.siliconflow.cn/

2）注册账号（通常有免费额度）。

3）生成 API Key 并填入软件。

3. 字节豆包

1）访问：

https://console.volcengine.com/ark/

2）创建推理接入点，获取 API Key。

3）将 API Key 填入软件。

4. 阿里云通义千问 (Qwen)

1）访问：

https://bailian.console.aliyun.com/

2）登录并开通“模型服务”。

3）在“API-KEY 管理”中创建新的 API Key。

4）复制 Key 填入软件，Base URL 默认即可。默认地址：

https://dashscope.aliyuncs.com/compatible-mode/v1

5. 智谱 GLM（ZhipuAI / GLM）

1）访问：

https://open.bigmodel.cn/ ，注册并获取 API Key。

2）将 API Key 填入软件。

3）Base URL（OpenAI 兼容方式）填写：

https://open.bigmodel.cn/api/paas/v4/

6. Google Gemini

1）访问：Google AI Studio:

https://aistudio.google.com/,在“API Keys”页面创建并管理 Gemini API Key。

2）将 Key 填入软件。

五、常见问题 (FAQ)

Q: 如何打开md文档？

右键 ->使用windows系统自带的记事本打开。或下载 Typora、MarkText、VS Code等打开。

Q: 点击”开始处理”没有反应？A: 请检查是否添加了文件，且 API Key 是否已正确设置并通过测试。文件上传和PDF拆分预处理，都需要一定的时间，所以大的PDF文档加载也需要一定的时间，请耐心等待。

Q: 识别结果乱码或为空？A: 可能是 PDF 每页图片过大导致模型拒识，尝试调低 DPI (如 150)。此外，有些模型，比如Qwen内嵌有敏感词检测，触发时，也会无法识别，这个和大语言模型有关，无法避免。

Q: 文件名乱码？A: 本软件全程支持 UTF-8，确保您的系统路径没有特殊偏僻字符。

六、HiOCR v2.3 更新说明

本次更新主要增强了软件的模型扩展能力与视觉识别度，并引入了更多的高性能免费模型。同时，我们重构了多线程逻辑以提升批量处理效率。

✨ 新增功能与外观

自定义 AI 模型支持：不再局限于预设列表，现在您可以手动填入任何兼容的 AI 模型名称。这为您尝试最新的推理模型或自建服务提供了极大的灵活性。

新增软件 Logo：正式上线了应用程序图标（Logo），修复了此前图标缺失的问题，提升了软件在任务栏与桌面的辨识度及整体美观性。

🚀 性能与稳定性

多线程性能优化：对底层的多线程处理机制进行了重构与优化，在处理大量文件时资源调度更合理，显著提升了并发识别的速度与运行稳定性。

🤖 模型生态更新

接入硅基流动（SiliconFlow）新模型：

新增免费模型：THUDM/GLM-4.1V-9B-Thinking，不仅免费且具备强大的思维链能力。

新增高阶模型：Qwen/Qwen3-VL-235B-A22B-Thinking 与 Qwen/Qwen3-VL-8B-Instruct，满足不同精度的识别需求。

优化通义千问模型列表：重新梳理了阿里云通义千问的模型选项，移除了过时条目，确保列表整洁且易于选择。

💡 体验改进

文案表达优化：全面校对并优化了界面上的提示文字与功能说明，修正了歧义表述，让操作指引更加清晰易懂。

七、LICENSE 声明（非商业使用许可）

HiOCR 为免费公开软件，但默认不授予商业用途的使用许可。

本项目代码采用 PolyForm Noncommercial License 1.0.0（SPDX: PolyForm-Noncommercial-1.0.0）授权：

1）允许个人/学校/科研/公益等非商业目的：使用、修改与分发。

2）禁止任何商业目的使用（包括但不限于：将本软件/源码集成到收费产品、以本软件提供收费服务、为商业项目交付/代跑/代处理等）。

3）如需商业授权（个人免费 + 企业付费）：请联系作者取得书面商业许可。

（本文原载于大数据与中国历史研究公众号）

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

马光 | HiOCR批量文字识别工具免费下载与说明

最新文章

热门文章

随机文章

马光 | HiOCR批量文字识别工具免费下载与说明

文心今日头条下载方式

GoLand 2019 安装教程(附安装包下载)

最新文章

热门文章

随机文章