网站首页 > 精选文章 正文
大家好,我是Jack Bytes,一个专注于将人工智能应用于日常生活的程序猿,平时主要分享AI、NAS、开源项目等。
兄弟们,不知道你们在生活、工作中有没有遇到过这样的场景:将视频或者音频转换为可以编辑的文字。
这样的场景一般来说只需要用音频识别就可以实现,但是单纯的音频识别经常会出现错字、错词等情况。
今天,给大家分享一个刚刚发现的利用 AI 将视频或音频转为文本的开源工具:AI-Media2Doc。目前在Github上已经斩获了2.3K Star。下面我们一起来看看吧!
一、介绍
AI-Media2Doc 又称「AI视频图文创作助手」,是一款基于 AI 大模型的 Web 工具,能够一键将视频和音频转化为各种风格的文档。
它采用前后端本地部署的方式,无需登录注册,让你以极低的成本体验 AI 视频 / 音频转风格文档服务。
该项目完全开源,基于 MIT 协议授权,你可以自由使用和二次开发。
二、功能特性
- 隐私保护到位:无需登录注册,所有任务记录都保存在本地,不用担心内容泄露。
- 前端高效处理:采用 ffmpeg wasm 技术,无需在本地安装 ffmpeg,降低了使用门槛。
- 多种风格支持:可将内容转化为小红书、公众号、知识笔记、思维导图、内容总结等多种风格。
- AI 对话功能:支持针对视频内容进行 AI 二次问答,深入挖掘内容价值。
- 字幕导出便捷:处理结果可一键导出为字幕文件,满足多场景需求。
- 智能截图插入:基于字幕信息智能截图并插入文章,无需视觉大模型,实现图文并茂。
- 自定义 Prompt 灵活:支持在前端自定义配置 prompt,让输出更符合个人需求。
- 部署简单快捷:支持 Docker 一键部署,上手容易。
- 访问密码设置:后端设置访问密码后,前端用户需填写密码才能使用,增加安全性。
三、安装
首先需要安装Docker,这里不再赘述。
然后克隆代码库:
git clone https://github.com/hanshuaikang/AI-Media2Doc.git
在项目目录,执行下面的命令构建镜像:
make docker-image
然后配置一下variables.env文件,文件内容如下:
MODEL_ID=xxx
LLM_API_KEY=xxx
TOS_ACCESS_KEY=xxx
TOS_SECRET_KEY=xxx
TOS_ENDPOINT=xxx
TOS_REGION=xxx
TOS_BUCKET=xxx
AUC_APP_ID=xxx
AUC_ACCESS_TOKEN=xxx
AUC_CLUSTER_ID=XXX
# 如果不需要密码访问,请留空或者删除此行
WEB_ACCESS_PASSWORD=
# 默认使用字节火山方舟的大模型服务
LLM_BASE_URL=https://ark.cn-beijing.volces.com/api/v3
这个文件中的参数说明如下:
- MODEL_ID:火山引擎对应的Model_ID
- LLM_API_KEY:火山引擎的API_KEY
- TOS_ACCESS_KEY:火山引擎对象存储服务的ACCESS_KEY
- TOS_SECRET_KEY:火山引擎对象存储服务的SECRET_KEY
- TOS_ENDPOINT:火山引擎对象存储服务的ENDPOINT
- TOS_REGION:火山引擎对象存储的bucket区域
- TOS_BUCKET:火山引擎对象存储的bucket名称
- AUC_APP_ID:音频识别大模型的APP_ID
- AUC_ACCESS_TOKEN:音频识别大模型的ACCESS_TOKEN
- AUC_CLUSTER_ID:音频识别大模型的CLUSTER_ID
- WEB_ACCESS_PASSWORD:网页应用访问密码
- LLM_BASE_URL:大模型地址,默认使用火山方舟的大模型
然后执行下面的命令启动容器:
make run
出现下面的内容表示启动成功:
四、体验
在浏览器输入http://127.0.0.1:5173,即可进入到首页:
可以看到,这个工具可以直接视频或者MP3音频转换为知识笔记、小红书、公众号、内容总结、思维导图、字幕文件。
下面我们来试一下,上传一个音频文件,并要求它转为「思维导图」:
在点击「开始处理」之后,就吭哧吭哧的处理了:
下面是处理的结果:
可以看到生成思维导图的效果还是很好的。
下面再试试「内容总结」:
看看「小红书」图文生成的怎么样:
我们可以在页面左侧看到生成的历史记录:
同样可以设置不同文本类型的提示词:
也可以设置智能截图,自动为生成的内容添加相关图片,提升视觉效果。
还有更多其他的功能大家可以自行尝试!
五、总结
AI 视频图文创作助手凭借其开源免费、隐私保护、功能丰富、部署便捷等特点,为用户提供了低成本处理音视频内容的绝佳方案。
如果你也有视频音频转文字的需求,不妨试试这款工具,相信它会给你带来惊喜。
如果你也有好玩、好用的工具,欢迎在评论区留言!
我是Jack Bytes
一个专注于将人工智能应用于日常生活的半吊子程序猿!
平时主要分享AI、NAS、Docker、搞机技巧、开源项目等技术,喜欢的话请关注吧!
猜你喜欢
- 2025-09-12 AI一键生成高清短视频,这个开源神器让内容创作起飞!
- 2025-09-12 挖到一款逆天跨平台翻译神器,功能直接拉满!
- 2025-09-12 第二讲,ComfyUI 安装教程:小白也能轻松搞定
- 2025-09-12 开源文件预览与Office在线编辑的强大解决方案
- 2025-09-12 前端开发不想写重复代码?Open Lovable 1 秒克隆网站!
- 2025-09-12 magnet磁力搜索小工具_2021简单好用磁力搜索
- 2025-09-12 小白也能上手!手把手教你电脑部署DeepSeek,用AI工具提高生产力
- 2025-09-12 Windows 本地部署 LangChain 完整教程
- 2025-09-12 如何搭建一个git服务器?_如何搭建自己的git服务器
- 2025-09-12 0. esp32开发之ubuntu环境搭建_esp8266 linux开发环境搭建
- 最近发表
- 标签列表
-
- 向日葵无法连接服务器 (32)
- git.exe (33)
- vscode更新 (34)
- dev c (33)
- git ignore命令 (32)
- gitlab提交代码步骤 (37)
- java update (36)
- vue debug (34)
- vue blur (32)
- vscode导入vue项目 (33)
- vue chart (32)
- vue cms (32)
- 大雅数据库 (34)
- 技术迭代 (37)
- 同一局域网 (33)
- github拒绝连接 (33)
- vscode php插件 (32)
- vue注释快捷键 (32)
- linux ssr (33)
- 微端服务器 (35)
- 导航猫 (32)
- 获取当前时间年月日 (33)
- stp软件 (33)
- http下载文件 (33)
- linux bt下载 (33)