关于AI的基础知识和第三方AI应用
前言
当年无数人自愿或者调剂到计算机专业从而入行IT,如果说小时候的梦想是当科学家,那么IT行业最吸引人的莫过于人工智能Artificial Intelligence (AI),只是发展过程比较缓慢,大家感知也不明显。当然2022年底OpenAI的ChatGPT横空出世,让我们意识到原来早年的图灵测试Turing Test已照进现实,机器学习和神经网络为后来者铺路,Google 2017年发布的Transformer模型成为关键转折点,ChaptGPT基于Transferomer模型经历了几轮迭代成功出圈,现如今各种大语言模型百花齐放,而2025年DeepSeek在工程优化上的开源成果让更多企业应用可以享受低成本带来的收益,我也很期待AI未来在其他行业如工业、农业、医疗等领域继续开枝散叶。
更新历史
2025年02月01日 - 初稿
阅读原文 - https://wsgzao.github.io/post/ai/
生成式 AI 究竟是个啥?
随着 ChatGPT、DeepSeek等 AI 产品的火爆,生成式 AI 已经成为了大家茶余饭后热议的话题。
人工智能生成内容AIGC(Artificial Intelligence Generative Content)
可是,为什么要在 AI 前面加上“生成式”这三个字呢?
如果将人工智能按照用途进行简单分类的话,AI 其实要被划分为两类:决策式 AI 和生成式 AI。
决策式 AI:专注于分析情况并做出决策。它通过评估多种选项和可能的结果,帮助用户或系统选择最佳的行动方案。
例如,在自动驾驶车辆中,就是通过决策式 AI 系统决定何时加速、减速或变换车道。
生成式 AI:专注于创造全新内容。它可以根据学习到的数据自动生成文本、图像、音乐等内容。
例如,你可以将几篇论文发给生成式 AI,他可以生成一篇文献综述,囊括了这几篇论文的关键思想、重要结论。
轻松搞懂“生成式 AI”原理
在刚刚的介绍中,大家应该都对生成式 AI 有了一个表象的认知:学习知识 + 生成新知识。
但它是如何学习的呢?又是如何生成的呢?
这时候,我们就得来看看生成式 AI 更深层次的定义了:
以 ChatGPT 为代表的生成式 AI,是对已有的数据和知识进行向量化的归纳,总结出数据的联合概率。从而在生成内容时,根据用户需求,结合关联字词的概率,生成新的内容。
是不是一下子懵了?
不急,这就触及到生成式 AI 的原理了。
其实制作一个生成式 AI,就像把一个泥人变成天才,一共需要四步:捏泥人 → 装大脑 → 喂知识 → 有产出
Step1:捏泥人 —— 硬件架构的搭建
要打造一个生成式 AI 的“泥人”,首先要考虑的就是底层硬件。底层硬件构成了生成式 AI 的算力和存力。
算力 —— 泥人的骨架
生成式 AI 需要进行大量的计算,尤其是在处理如图像和视频时。大规模计算任务离不开下面这些关键硬件:
- GPU(Graphics Processing Unit,图形处理单元):提供强大的并行计算能力。通过成千上万个小处理单元并行工作,大幅提高了计算效率。
- TPU(Tensor Processing Unit,张量处理单元):专门为加速人工智能学习而设计的硬件,能够显著加快计算速度,进一步增强了骨架的强度。
存力 —— 泥人的血液
生成式 AI 需要处理和存储大量的数据。
以 GPT-3 为例,光是训练参数就达到了 1750 亿个,训练数据达到 45TB,每天会产生 45 亿字内容。
这些数据的存放离不开下面这些硬件设施:
- 大容量 RAM:在训练生成式 AI 模型时,大量的中间计算结果和模型参数需要存储在内存中,大容量的 RAM 能够显著提高数据处理速度。
- SSD(固态硬盘):大容量的 SSD 具有高速读取和写入能力,可以快速加载和保存数据,使泥人能够高效地存储信息。
泥人捏好了,但是现在只能是一个提线木偶,没有任何能力,所以我们就要给他装上大脑。
Step2:装大脑 —— 软件架构构建
软件架构是泥人的大脑,它决定了这个泥人将以什么样的方式对数据进行思考推理。
从仿生学的角度,人类希望 AI 能够模仿人脑的运行机制,对知识进行思考推理 —— 这就是通常所说的深度学习。
为了实现深度学习,学者们提出了大量的神经网络架构:
- 深度神经网络(DNN)是最普遍的神经网络架构,但是随着数据对于网路架构的要求越来越复杂,这种方法逐渐有些吃力。
- 卷积神经网络(CNN)是一种专门为处理图像数据而设计的神经网络架构,能够有效地处理图像数据,但是需要对输入数据进行复杂的预处理。
- 随着任务复杂度的增加,循环神经网络(RNN)架构成为处理序列数据的常用方法。
- 由于 RNN 在处理长序列时容易遇到梯度消失和模型退化问题,著名的 Transformer 算法被提出。
随着算力的发展,生成式 AI 的网络架构发展越来越成熟,也开始各有侧重:
- Transformer 架构:是目前文本生成领域的主流架构,GPT、llama2 等 LLM(大语言模型)都是基于 Transformer 实现了卓越的性能。
- GANs 架构:在图像生成、视频生成等领域有广泛应用,能够生成高质量的图像和视频内容。
- Diffusion 架构:在图像生成、音频生成等领域取得了很好的效果,能够生成高质量、多样化的内容。
Step3:喂知识 —— 数据训练
目前有两种训练方式:预训练和 SFT(有监督微调)
预训练:是指将一个大型、通用的数据集作为知识喂给 AI 进行初步学习。
经过预训练的模型叫作“基础模型”,它对每个领域都有所了解,但是无法成为某个领域的专家。
SFT:SFT 是指在预训练之后,将一个特定任务的数据集喂给 AI,进一步训练模型。
Step4:有产出 —— 内容生成
在理解完大量词语、句子之后,AI 就可以生成内容了。它是如何生成内容的呢?
AI 提供了一个调节参数,叫温度,范围从 0 到 1。
- 在温度为 0 时,说明匹配概率要选尽量大的,在以上例子中,AI 很可能选择“饭”;
- 在温度为 1 时,说明匹配概率要选尽量小的,在以上例子中,AI 很可能选择“饼”。
数值越接近 1,得到的内容越天马行空。
但是,我们看到大多数 AI 产品,只有一个对话框,如何修改温度参数呢?
答案是“提示词”,也就是我们通常所说的 prompt。
- 如果你输入是“你是一名某某领域的专家,请用严谨的口吻写一篇关于 xx 的文献综述。”这时 AI 的温度接近 0,就会选择匹配概率尽量高的词语生成句子。
- 如果你输入是“请你请畅想一下 xx 的未来。”这时 AI 的温度接近 1,就会选择匹配概率尽量低的词语组成句子,生成意想不到的内容。
现在知道 prompt 的重要性了吧!
所以,我们可以认为,AI 生成的本质就是一场词语接龙:AI 根据当前字,联系它之前记录的下个字的出现概率以及你的期望,选择接下来的字。
AI基础知识
AI教育知识普及的先锋就必须得提到Andrew Ng
https://www.coursera.org/instructor/andrewng
https://learn.deeplearning.ai/courses/ai-python-for-beginners/lesson/1/introduction
不习惯看纯英文也没关系,B站已经搬运和添加双语字幕
https://space.bilibili.com/96499511
不喜欢看文字的同学也可以回顾下小Lin说的视频一口气搞清楚ChatGPT
没有赶早上车Nvidia英伟达并且成功套现的同学也不用叹息,每个时代都有不同的造富机会,关键是你想活出怎样的人生?
AI相关产品
我自己常用的AI产品链接
Perplexity - AI搜索产品,国内对应秘塔AI搜索
https://www.perplexity.ai/
Gemini - Google出品尚能饭否?
https://gemini.google.com/
DeepSeek - 2025年成功出圈全球App下载榜单,必须点赞
https://chat.deepseek.com/
豆包 - 普通人在国内国外都能用的移动App,腾讯元宝接入DeepSeek后和阿里通义一起再次呈现三足鼎立格局
https://www.doubao.com/chat/
Cursor - 继承GitHub Copilot基于VSCode插件形式后的新融合形态,Agent形态的Windsurf也可能是另一种思路
https://www.cursor.com/
如果想在国内网络尝鲜体验AI编程,那么字节跳动旗下的MarsCode和Trae可以作为平替方案
https://www.marscode.com/
https://www.trae.ai/
The Generative AI Landscape - A Collection of Awesome Generative AI Applications
https://www.thataicollection.com/
AI产品榜
https://dnipkggqxh.feishu.cn/wiki/C5XGwG6ITiWxNmkEhNOcCtYbntd
以下推荐引用自林亦LYi的视频,相信未来还会有更多有意思的第三方应用层出不穷
雷军模拟器?一键清日常?耗时3个月,我们体验了数百款AI工具……
最简单的代码编辑器:bolt.new
https://bolt.new/
最未来可期的AI项目: Claude Computer Use
https://docs.anthropic.com/en/docs/build-with-claude/computer-use
最好用的浏览器总结插件:Elmo Chat
https://chromewebstore.google.com/detail/elmo-chat-your-ai-web-cop/ipnlcfhfdicbfbchfoihipknbaeenenm
最轻量的多智能体开发框架:Swarm
https://github.com/openai/swarm
最保“真”的TTS工具:FishAudio
https://fish.audio/zh-CN/
最自然的播客生成工具:NotebookLM
https://notebooklm.google/
最高效的图像生成工具:ComfyUI
https://www.comfy.org/
最想要的机器人Pi0:可帮你做家务的机器人
https://www.physicalintelligence.company/blog/pi0
获得最高奖的AI:AlphaFold
https://github.com/google-deepmind/alphafold3
https://deepmind.google/technologies/alphafold/
最酷炫的AI算法实现方式:ai-by-hand-excel
https://aibyhand.substack.com/
引用下微信公众号数字生命卡兹克写的一篇文章结尾2025最好用的AI产品大全推荐,看这一篇就够了。
这一篇,看着简单,但写到最后,真的有点快写麻了。
工作量比我预期的还要大很多,看了一眼时间,又快凌晨6点了。
天亮了,该睡了。
在睡觉之前,我突然有鬼使神差的对比了一下我23年11月写的那篇盘点,那里面有一张表格。
图片
一晃眼,1年零3个月过去了。
几乎全变了。
那时候,甚至都没有AI编程这个概念,AI搜索也不咋地,AI绘图被全方位吊打,AI视频里Pika正如日中天,大语言模型屠遍国内。
那时候,国产AI,好像还是个笑话。
但是现在,我想说一句,大人,时代变了。
忽然想起前几天看哪吒的时候,里面的一句台词。
若前方无路,我便踏出一条路!
若天地不容,我便扭转这乾坤!
你看,多么真实的写照。
以上。