可视化资源

书中关键概念与模型的动图与交互演示,便于直观理解。条目按《神经网络与深度学习(第二版)》的章节顺序排列。

数学基础

概率与统计

第 2 章 · 机器学习概述

过拟合实验台

过拟合实验台

拖动模型复杂度,看曲线从欠拟合到过拟合,训练/测试误差的 U 型对比。

早停:见好就收

早停:见好就收

训练误差一路降、验证误差先降后升,停在 U 形谷底——见好就收的早停。

梯度下降下山

梯度下降下山

小球沿曲线下山找最低点;调学习率看收敛、震荡,体会局部最优陷阱。

偏差与方差

偏差与方差

同复杂度在多份数据上学出多条曲线,看是‘齐刷刷地偏’还是‘乱七八糟地飘’。

学习曲线:该加数据还是加模型

学习曲线:该加数据还是加模型

拖数据量看训练/验证误差怎么收敛:两条都卡高处=高偏差(该换强模型)、差距大且验证还在降=高方差(该加数据)。

双下降现象

双下降现象

测试误差降→升→再降:模型大到参数比数据还多,反而比经典最优更好(挑战偏差方差)。

精确率与召回率

精确率与召回率

拖判定阈值,看混淆矩阵、精确率与召回率此消彼长,以及 ROC 曲线。

混淆矩阵与多类指标

混淆矩阵与多类指标

三类混淆矩阵 + 各类精确率/召回/F1:类别不平衡时一个准确率会掩盖稀有类的崩溃,宏平均与微平均就此分道扬镳。

概率校准

概率校准

模型说“90% 把握”真有 90% 对吗?可靠性图看点落在对角线下方=过度自信,调温度把它校准回对角线、ECE 降到最低。

正则化 L1 / L2

正则化 L1 / L2

调正则强度,看 L2 让权重一起缩、L1 把一些权重压到 0(稀疏 / 特征选择)。

L1 / L2 的几何(为什么 L1 稀疏)

L1 / L2 的几何(为什么 L1 稀疏)

损失椭圆碰上约束区域:L1 菱形的尖角落在坐标轴上,解顶在尖角→一个权重精确归 0;L2 的圆只能让权重一起缩。

损失函数对比

损失函数对比

对一个正样本拖动模型打分,并排看 MSE / 交叉熵 / Hinge / Focal 的惩罚曲线——交叉熵对“自信地答错”惩罚暴涨。

决策树与信息增益

决策树与信息增益

按信息增益一刀刀切分平面,看决策树怎样把交叠的两类逐步分纯。

k 近邻 KNN

k 近邻 KNN

拖查询点,看最近 k 个邻居投票分类;k 小决策边界碎、k 大边界平。

集成学习 Bagging

集成学习 Bagging

多个高方差弱模型一平均就变平滑、方差骤降,看一堆杂乱细线收敛成一条干净金线(随机森林核心)。

第 3 章 · 线性模型

第 4 章 · 前馈神经网络

第 5 章 · 卷积神经网络

第 6 章 · 循环神经网络

第 7 章 · 网络优化与正则化

第 8 章 · 注意力机制与 Transformer

注意力机制

Transformer

第 9 章 · 图神经网络

第 10 章 · 无监督学习

第 11 章 · 模型独立的学习方式

第 12 章 · 深度强化学习

第 13 章 · 大语言模型与智能体

LLM 内部结构(3D)

LLM 内部结构(3D)

bbycroft.net/llm:3D 交互式 GPT 内部张量流动演示,从 token 到 logit 的全过程。

词元化

词元化

输入文字看它被切成一个个词元;也解释了模型为什么数不清 strawberry 里有几个 r。

BPE 子词合并

BPE 子词合并

从字符起步,反复合并最高频相邻对,看“est”“low”这样的子词怎样被一步步学出来。

温度采样

温度采样

调‘温度’看模型挑下一个词的概率条重塑:低温保守稳定、高温有创意也容易胡说。

top-k 与 top-p 采样

top-k 与 top-p 采样

切 top-k / top-p,看截断候选词表怎么砍掉长尾、控制生成稳重还是放飞(配合温度)。

下一词预测

下一词预测

用 bigram 语言模型按概率接词成句,看“按概率接龙”为什么会跑题、重复。

自回归逐词生成

自回归逐词生成

一个字一个字预测、写下、再喂回输入,动态看 GPT 怎样把句子“接”出来。

困惑度

困惑度

切换好/一般/随机模型,看同一句话的困惑度差多少——模型读句子时有多惊讶。

束搜索与贪心

束搜索与贪心

解码树上贪心 vs 束搜索:贪心掉进局部最优,束搜索留 k 条找到整体更优的句子。

缩放定律

缩放定律

损失随规模按幂律下降(log-log 直线),用小模型外推预测大模型,还有不可约下限。

对比学习与 CLIP

对比学习与 CLIP

点训练,看图文相似度矩阵的对角线怎样点亮——CLIP 用配对图文拉近正样本、推远负样本。

混合专家 MoE

混合专家 MoE

路由器把每个词只派给少数几个‘专家’子网络,参数海量但每次只算一小部分。

KV 缓存与 O(n²)

KV 缓存与 O(n²)

自回归生成时注意力是 O(n²),KV 缓存把历史键值存起来复用,降到线性。

投机解码

投机解码

小模型起草几个字、大模型并行核验采纳,看它如何在不改结果的前提下加速生成。

量化

量化

把连续权重吸附到离散档位,fp32→int8/int4 看体积缩小与精度损失的权衡。

LoRA 低秩微调

LoRA 低秩微调

冻结大权重矩阵,只训两个小矩阵 A·B,微调参数从 d² 骤降到 2dr。

RLHF:偏好 → 奖励模型

RLHF:偏好 → 奖励模型

人类只说“A 比 B 好”,Bradley-Terry 拟合出奖励曲线;再把策略 π∝π_ref·exp(r/β) 推向高分区,β 是拴住别跑偏的 KL 缰绳。

第 14 章 · 概率图模型

第 15 章 · 深度信念网络

第 16 章 · 深度生成模型


欢迎贡献新的可视化资源:fork 仓库并在 viz/ 下添加 markdown 与素材后提 PR。