由于身处医学部,修读信双的我一节线下课都去不了,所有信双课程都必须自学,所以在过往的三年里,为了监督自己学习,我为大部分课程都同步撰写了笔记,在此过程中,AI 使我受益匪浅,它不仅能够帮我答疑解惑,详细地讲解 Slides 中没写明白的地方,还能帮我省去许多苦力活,敲出许多近乎完美的 LaTeX 代码,形成高质量、通俗易懂的笔记,成为了我信双学习生涯不可或缺的助力。
在过往的学期内,很多的笔记都是我对着 PPT 硬问 AI 然后结合录播自行增改所撰写,但随着 Gemini 的横空出世,我总结出了一套很棒的 Pipeline,感觉很适合信科课程的学习,在此分享给大家,希望能对大家有所帮助。
- 从教学网使用 PKU-Art ↗ 下载录播视频
- 将录播视频上传至 通义听悟 ↗ (学生认证后送 500h,识别准确度不错,但对英文名词略差),设置中英文混合识别,识别出文字内容,导出 docx 格式的录音稿
- 使用自定义 Prompt(见后附注),利用上下文长达 1M 的
gemini-2.5-pro
模型生成 Markdown 笔记(方式见后),建议不要全文送入,尽管上下文可以 Cover,但有可能对于重点和细节的关注有所下降,我一般就是一节课(约 50 min)一次输入。 - 利用 Typora 整理多段内容,形成初版笔记,通读之当做预习
- 随后倍速播放课程录播,尝试在初版笔记基础上增删改查,并对现有笔记中没有的、在 PPT 中的内容进行补充,从而同时覆盖老师口述内容与 PPT 内容,形成最终笔记
关于 AI 的使用:
- 如果你是北京大学学生,可以使用官方的 DeepSeek API 模型,但不推荐,比较菜。
- 如果你有更高的需求,可以考虑通过一些第三方中转,如 yunwu.ai ↗ (不带邀请的链接是:yunwu.ai ↗)以相对廉价的成本使用先进模型。
- 得到 API Key 后,推荐使用公益的 LCPU Lobe Chat ↗ 网页版来获得更好的使用体验,你也可以进一步下载 其本地 App 客户端 ↗ 来获得快速唤起等更方便的功能。
尽管使用了 AI,但如果用心整理笔记,仍会花费接近甚至超过课程的原始时间(对我而言,基本上是原始时间的 1.5x),不过的确能在此过程中充分理解课程内容。
希望对大家有所帮助。
{TEXT}
根据以上转录稿(请注意,其中可能存在大量的识别错误,你可能需要自行猜测并修正之)以及所给 PPT 内容,撰写详细清楚的笔记,要求使用 markdown。 风格类似
```md
## 线性模型
线性模型:线性模型就是要学习特征 $X$ 的一种线性组合来进行预测,进行运算 $y = wX + b$,其中 $w$ 是 $X$ 的权重,$b$ 是偏置,$y$ 是预测值。
我们希望通过学习得到最优的 $w$ 和 $b$,使得预测值 $y$ 与真实值(ground truth) $y_{GT}$ 的误差最小。
其中,$X$ 具有 $n$ 个特征,$X = (x_1, x_2, ..., x_n)$,其每个分量都代表一个特征,$y = w_1x_1 + w_2x_2 + ... + w_nx_n + b$,是 $X$ 各个特征的线性组合。
**线性回归**:给定数据 $D = \{(x_1, y_1), (x_2, y_2), \ldots, (x_n, y_n)\}$, 用一个线性模型估计最接近真实 $y$ 的连续标量: $f(x_i)=w^T \cdot x_i + b$, 也就是要 $f(x_i) \approx y_i$
其中,$(w, b)$ 是要学习的模型参数。
也就是要:
$$
f^{*} = \arg \min_f \mathbb{E} [ ( f ( X )-Y )^{2} ]
$$
由于我们不能无限地获得数据,所以我们只能通过有限的数据来估计这个期望,也就是:
$$
f^{*}= \arg \min_f \frac{1}{N} \sum_{i=1}^{N} ( f ( x_i )-y_i )^{2}
$$
这也被称为 Empirical mean(经验均值)。
其中,$n$ 是数据的数量,$x_i$ 是第 $i$ 个数据的全部特征,$y_i$ 是第 $i$ 个数据的真实值,$f(x_i)$ 是第 $i$ 个数据的预测值。
```
如你所见,我希望笔记可读性很强,详细介绍所有出现的公式、符号定义,深入讲解讲稿中的核心 insight 与重要知识点,同时兼顾思维的连贯性,我希望你尽量少运用加粗语法与列表语法,并尽量使用中文标点符号,除非必要情况。
请直接输出 md 格式内容,无需外包代码块。
plaintext