这一刻，我忽然明白了模型才是最大的应用这句话的意义 | Blog

AI 大模型

这一刻，我忽然明白了模型才是最大的应用这句话的意义

字数 1113阅读时长≈ 3 分钟

2025-6-29

type

tags

category

icon

password

Multi-select

优先级

重要度

状态 2

预计结束时间

添加日期

URL

状态

分类（人工）

总结（AI 摘要）

status

在这一刻，我忽然明白了模型才是最大的应用的意义。

事情是这样的，我最近想写一篇套壳之王perplexity的深度解析。我在体验它的空间功能的时候，发现可以上传文件来作为知识的补充。主要也是因为现在很多技术太新了，在网上找不到特别深度的内容，但是在播客这种形态下，经常会有一些大咖的访谈，这是非常优质的知识来源。所以我就像去小宇宙找一些相关的播客。在我下载到对应的音频之后，我发现他的文件中有 pdf、word、png 等文档图片型文件，但是音频/视频类文件是不支持的。这一下天不就塌了。

于是乎一个念头涌上心头，不支持音频那我就转写不就好了么。这时候凭我的经验，我迅速想了好几个解决方案：

方案1：使用现成的工具试试

我用了最近比较火的podwise，小宇宙的支持确实是不错的，有原始内容、总结、还有思维导图，体验确实不错。

notion image

但是当我想要导出文本的时候发现要会员，真的坑啊。如果信息不能流动，那么将一文不值。本着我上我也行的原则，最终我又继续折腾其他方案了。当然促使我折腾其他方案的原因还有就是它只支持部分的源，这并不能满足我全部的需求。

方案 2：使用扣子完成音频处理获得文本转存到飞书多维表格

说干就干，我直接点开扣子创建了新的智能体然后使用工作流完成核心逻辑。这里面因为扣子成熟的生态，其实有很多插件都可以用，比如小宇宙音频链接获取、音频转文本（扣子官方）等。

方案3：使用cursor现搭一个解析工具

作为使用 cursor 创建了众多应用的我，对 cursor 的能力自然还是很了解的。sonnet 3.7的加持下使得 cursor 的 coding 能力得到了质的提高。最关键的是它的背后是人类历史上众多的coding 知识沉淀。于是乎我就开始了

notion image

我很清楚 cursor 的效果需要依赖足够好的 prompt ，所以我用了我自己调试的 AI产品prompt 来训练它，让他自己输出了一份需求文档：

notion image

notion image

嗯，感觉确实还挺不错的；然后我就让他自己生成 rules，基于 0.49 的特性，自动生成了 rules

notion image

于是乎我就得到了 4 份 rules。

notion image

接下来就是开始开发：

notion image

然后就是发现了各种调试的问题，一开始它给我推荐了Whisper 的 api，我采纳之后就是各种装包，后面发现还要开通 openai 的 api，这比较麻烦。

notion image

然后我就看到火山引擎有相关的语音转录 APi，就让他转到火山项目，当它改写完之后才发现火山引擎居然不支持个人使用该 API。到这里已经被折腾的很心累了。

忽然我想起来了，gemini 2.5 pro 不是号称支持多模态的输入么，于是我就开始换新的方案

方案4：gemina 2.5 pro + noiton mcp

我把音频下载下来之后，直接在 chatwise 中喂给了gemini，然后调用了 notion 的 mcp，将生成的内容转到 notion 的数据库中，保存了新的页面。

notion image

我还开启了 notion 的 ai，可以自动总结内容：

notion image

notion image

然后我将该文本直接导出为 pdf，就顺利丢到了 perplexity的空间下。

虽然事情处理完了，但我陷入了沉思。如果模型的基础能力不断提升，那么现在基于模型之上的应用还有意义么。就像 4o 的图片模型一出来，ps的意义就真的没啥意义了。

多邻国如何重燃用户增长

16 个影响巨大的用户界面设计小技巧

16 个影响巨大的用户界面设计小技巧

作者:xingyan
链接:http://blog.xingyan.me/article/1df64cad-d821-800a-9a1c-e98f3159e666
声明:本文采用 CC BY-NC-SA 4.0 许可协议，转载请注明出处。

相关文章

LLM 大模型学习

看 Cursor 如何优雅的解决编辑难题

看 Cursor 如何优雅的解决编辑难题

有目的的人工智能设计：人工智能意图矩阵

有目的的人工智能设计：人工智能意图矩阵

gemini 2.5 0506 版视频理解太炸裂了

gemini 2.5 0506 版视频理解太炸裂了

目录

这里有关于产品、设计、开发、增长等一站式内容。

涉及个人的所思所想以及国内外优秀产品和文章解读。

星彦

助您成为超级个体

目录

公众号

快人一步获取最新文章 ▶

WeChat

QR Code

扫一扫 | 获取最新文章

最新发布

Lazy loaded image

Lazy loaded image

Lazy loaded image

Lazy loaded image

Lazy loaded image

Lazy loaded image

文章数:

12

建站天数:

80 天