type
tags
category
icon
password
Multi-select
优先级
重要度
状态 2
预计结束时间
添加日期
URL
状态
分类(人工)
总结(AI 摘要)
status
在这一刻,我忽然明白了模型才是最大的应用的意义。
事情是这样的,我最近想写一篇套壳之王perplexity的深度解析。我在体验它的空间功能的时候,发现可以上传文件来作为知识的补充。主要也是因为现在很多技术太新了,在网上找不到特别深度的内容,但是在播客这种形态下,经常会有一些大咖的访谈,这是非常优质的知识来源。所以我就像去小宇宙找一些相关的播客。在我下载到对应的音频之后,我发现他的文件中有 pdf、word、png 等文档图片型文件,但是音频/视频类文件是不支持的。这一下天不就塌了。
于是乎一个念头涌上心头,不支持音频那我就转写不就好了么。这时候凭我的经验,我迅速想了好几个解决方案:
方案1:使用现成的工具试试
我用了最近比较火的podwise,小宇宙的支持确实是不错的,有原始内容、总结、还有思维导图,体验确实不错。

但是当我想要导出文本的时候发现要会员,真的坑啊。如果信息不能流动,那么将一文不值。本着我上我也行的原则,最终我又继续折腾其他方案了。当然促使我折腾其他方案的原因还有就是它只支持部分的源,这并不能满足我全部的需求。
方案 2:使用扣子完成音频处理获得文本转存到飞书多维表格
说干就干,我直接点开扣子创建了新的智能体然后使用工作流完成核心逻辑。这里面因为扣子成熟的生态,其实有很多插件都可以用,比如小宇宙音频链接获取、音频转文本(扣子官方)等。
方案3:使用cursor现搭一个解析工具
作为使用 cursor 创建了众多应用的我,对 cursor 的能力自然还是很了解的。sonnet 3.7的加持下使得 cursor 的 coding 能力得到了质的提高。最关键的是它的背后是人类历史上众多的coding 知识沉淀。于是乎我就开始了

我很清楚 cursor 的效果需要依赖足够好的 prompt ,所以我用了我自己调试的 AI产品prompt 来训练它,让他自己输出了一份需求文档:


嗯,感觉确实还挺不错的;然后我就让他自己生成 rules,基于 0.49 的特性,自动生成了 rules

于是乎我就得到了 4 份 rules。

接下来就是开始开发:

然后就是发现了各种调试的问题,一开始它给我推荐了Whisper 的 api,我采纳之后就是各种装包,后面发现还要开通 openai 的 api,这比较麻烦。

然后我就看到火山引擎有相关的语音转录 APi,就让他转到火山项目,当它改写完之后才发现火山引擎居然不支持个人使用该 API。到这里已经被折腾的很心累了。
忽然我想起来了,gemini 2.5 pro 不是号称支持多模态的输入么,于是我就开始换新的方案
方案4:gemina 2.5 pro + noiton mcp
我把音频下载下来之后,直接在 chatwise 中喂给了gemini,然后调用了 notion 的 mcp,将生成的内容转到 notion 的数据库中,保存了新的页面。

我还开启了 notion 的 ai,可以自动总结内容:


然后我将该文本直接导出为 pdf,就顺利丢到了 perplexity的空间下。
虽然事情处理完了,但我陷入了沉思。如果模型的基础能力不断提升,那么现在基于模型之上的应用还有意义么。就像 4o 的图片模型一出来,ps的意义就真的没啥意义了。
- 作者:xingyan
- 链接:http://blog.xingyan.me/article/1df64cad-d821-800a-9a1c-e98f3159e666
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。