LOADING

加载过慢请开启缓存 浏览器默认开启

Izumi Sagiri

个人博客

分享平时的技术和生活

2025年终总结

2025/12/31

总结

转眼间2025年就要过去了,是时候来一个年终总结了
这一年发生了很多事情,有了两篇论文,找到了实习,遇见了很多人。
时间真的过的好快。
我自己对于2025年的评价呢,我认为,真的很幸福且充实。
大二下的时候,组建了打比赛的团队。
大家真的很努力,而且那个时候虽然事情很多很紧张,但是现在一回想,真的做了很多事情。
暑假的时候,吵吵合合,也是最后调整过来了。
现在已经适应了两个人的生活,感觉自己不再那么自私了。
感觉自己离自己的目标又更近一步了。
大三上,前面在焦虑和迷茫中度过
10月份投的老师,没有了回信,陷入了深深的自我否定
还好12月份,勇敢了一把,终于让实习有了着落。
我有成熟一点了吗?

未来的展望和一些想法

明年想要好好去做这段实习,好好复习考研,我真的很害怕我会懈怠。

实习

尽量参与到发表论文,真正获得提升

明年考研需要做的:

1~6月底

过完专业课的一轮和数学三本书
408看完网课,做王道练习题,做一个梳理
数一,过完三本书,做一些课后练习题
英语,过完两轮单词

7~12月

二轮,刷真题,九月份开政治

尾声

2025可能是我本科阶段最后一个好好体验大学生活的时候了,得好好的成为大人啊
我感觉我的大学前两年,很多时候没有真正学到东西。后面我能改进一些吗?
最后,放一张纱雾镇楼
alt text

阅读全文

Hexo博客图床配置完全指南

技术教程 2025/12/30

前言

在使用 Hexo 搭建博客时,很多小伙伴都会遇到两个问题:

  1. 本地图片占用空间过大:图片直接保存在本地和 GitHub 仓库,会导致仓库体积膨胀
  2. VSCode 粘贴图片不便:每次写博客时,粘贴的图片无法自动保存到对应的文章文件夹

本文将介绍如何使用图床服务来优雅地解决这些问题。

什么是图床?

图床是一种图片存储和托管服务,可以:

  • 节省本地和 GitHub 仓库空间
  • 加快图片加载速度(配合 CDN)
  • 支持图片外链,在 Markdown 中直接引用
  • 方便图片管理和备份

解决方案概述

我们将使用以下工具组合:

  • PicList:强大的图床上传工具,支持多种图床服务
  • SM.MS:免费图床服务(也可选择其他图床)
  • VSCode 插件:实现编辑器内一键上传图片

详细配置步骤

第一步:安装 PicList

  1. 访问 PicList Releases
  2. 下载最新的 Windows 安装包(PicList-Setup-x.x.x.exe
  3. 双击安装,按提示完成安装

PicList 支持的图床服务:

  • SM.MS(免费,推荐新手)
  • imgloc(免费,无需注册)
  • 阿里云 OSS(稳定,有免费额度)
  • 腾讯云 COS(稳定,有免费额度)
  • GitHub(免费,但国内访问较慢)

第二步:注册并配置 SM.MS 图床

  1. 访问 SM.MS 注册页面 注册账号
  2. 登录后访问 API Token 页面
  3. 点击生成 API Token,复制保存
  4. 打开 PicList 应用
  5. 点击 图床设置SM.MS 图床
  6. 填入 API Token,点击确定

第三步:安装 VSCode 插件

在 VSCode 中打开博客项目:

  1. Ctrl+Shift+X 打开扩展面板
  2. 搜索 “Image/Picture Uploader (PicList)”
  3. 点击安装

第四步:使用方法

配置完成后,在写博客时非常方便:

方式一:剪贴板上传(最常用)

  1. 截图或复制图片到剪贴板
  2. 在 Markdown 文件中按 Ctrl+Alt+U
  3. 图片自动上传并插入 Markdown 链接

方式二:拖拽上传

直接拖拽图片到编辑器,自动上传并插入链接

方式三:右键上传本地图片

右键点击图片文件,选择 “Upload Image with PicList”

其他图床推荐

imgloc

  • 优点:完全免费,无需注册
  • 缺点:稳定性稍差
  • 适用场景:临时图片存储,测试使用

阿里云 OSS

  • 优点:稳定快速,国内访问速度快
  • 免费额度:40GB 存储,每月 5GB 流量
  • 适用场景:生产环境,追求稳定性

腾讯云 COS

  • 优点:稳定快速,CDN 加速
  • 免费额度:50GB 存储(6 个月)
  • 适用场景:生产环境,国内用户为主

常见问题

Q: 图片上传失败怎么办?

A: 检查以下几点:

  • 网络连接是否正常
  • API Token 是否正确
  • 图床服务是否可用

Q: 如何批量上传图片?

A: 在 PicList 主界面可以批量选择图片上传,然后复制生成的 Markdown 链接

Q: 如何管理已上传的图片?

A: 在图床服务的管理后台(如 SM.MS)或 PicList 的相册管理中可以查看和删除

优化建议

  1. 图片压缩:上传前使用 TinyPNG 压缩图片
  2. 定期清理:定期在图床后台删除不再使用的图片
  3. 备份数据:重要图片建议备份到本地或云盘
  4. 使用 CDN:如果使用阿里云 OSS 或腾讯云 COS,可以开启 CDN 加速

效果对比

使用图床前:

  • 本地图片:2MB+ 每张
  • GitHub 仓库:几百 MB
  • 图片加载:较慢

使用图床后:

  • 本地图片:0
  • GitHub 仓库:仅 Markdown 文本
  • 图片加载:快速(配合 CDN)

总结

通过配置图床服务,我们优雅地解决了 Hexo 博客的图片管理问题:

  • 释放了本地和仓库空间
  • 实现了 VSCode 一键上传图片
  • 提升了博客加载速度

如果你在配置过程中遇到问题,欢迎在评论区交流!

参考链接

阅读全文

12.14-25日论文学习报告

学术研究 2025/12/25

报告人:王子通 | 2025/12/25

MatchTime 系列论文深度笔记

第一篇论文 MatchTime: Towards Automatic Soccer Game Commentary Generation

核心痛点:消失的“16秒”

在足球视频领域,传统的解说词数据存在严重的音画不同步。由于原始数据大多抓取自实时文字直播,解说词往往比实际进球画面晚了 16.63 秒甚至更多。如果直接用这种“脏数据”训练,AI 只会学会“马后炮”。


第一章:数据治本——如何通过数学实现“降维打击”

论文的核心贡献在于 Section 3.2 (Temporal Alignment Pipeline),它展示了如何用一套自动化的管线将滞后的文本“拽”回正确的帧。

1. 亲和力矩阵 (Affinity Matrix):连连看的底牌

为了对齐视频帧(Visual Frames)和解说词(Text Captions),作者引入了 Affinity Matrix $\mathbb{A}$

  • 它是怎么来的? 假设视频有$n$ 帧,文本有 $k$ 句,矩阵的大小就是$k \times n$ 。

核心公式推导:亲和力矩阵 (Affinity Matrix)

在计算视频帧 $V_j$ 与文本 $C_i$ 的相似度时,公式表达为:

$$\mathbb{A}[i, j] = \frac{C_i \cdot V_j^T}{||C_i|| \cdot ||V_j|| \cdot \tau}$$

公式拆解:

  • 分子 ($C_i \cdot V_j^T$):特征向量的点积,衡量方向一致性。
  • 分母 ($||C_i|| \cdot ||V_j||$):$L_2$ 范数归一化,确保计算的是余弦相似度
  • $\tau$:温度参数,用来控制相似度分布的平滑度。
  • 深度解析
  • ** 是什么?** 这是向量的 ** 范数**(模长)。之所以要除以它,是为了进行归一化,将计算锁定为余弦相似度。我们只关心文本和画面的“语义方向”是否一致,而不关心特征向量本身的绝对大小。
  • 为什么要算这个? 通过寻找矩阵每一行中的最大值(),模型能自动锁死每一句解说词对应的“高光时刻”。

第二章:模型架构——MatchVoice 的“翻译”逻辑

MatchVoice 的本质是一个多模态大模型 (MLLM)。它通过一套精密设计的组件,将视频“翻译”成文字。

1. 为什么视觉编码器 (Visual Encoder) 要冻结?

在架构图中,你会看到视觉部分(如 CLIP 或 Baidu 特征)被打上了“雪花”图标(Frozen)。

  • 策略:冻结预训练好的编码器可以保持其强大的通用特征提取能力,同时大幅降低训练成本。

2. Learnable Queries & Attention:精准探测器

  • Learnable Queries:它们不是来自视频,而是模型内置的“探测员”。
  • 自注意力 (Self-Attention):让这群“探测员”在出发前先开个会,分工合作(比如有的看人,有的看球)。
  • 交叉注意力 (Cross-Attention):这是关键!探测员拿着清单去视频特征(超市货架)里取货,把散落在时空中的信息吸收到 Query 向量中。
    alt text

3. 从投影到生成:MLP 与 Prefix Tokens

  • MLP 的翻译官作用:视觉特征与 LLM 的维度往往不匹配。MLP (Projection Layer) 就像转换插头,将视觉特征投影到 LLM 能听懂的空间。
  • Prefix Tokens (紫色方块):这是 MLP 输出的唯一成果。它们作为“视觉前缀”喂给 LLM(如 LLaMA-3)。
  • 生成逻辑:$C = \Psi_{dec}(\Psi_{proj}(F))$。:。LLM 接收到视觉前缀后,开始顺着这个背景一个词一个词地吐出蓝色的 Commentary Tokens

第三章:评估的“金标准”——SN-Caption-test-align

为了证明 AI 真的看懂了球,作者没有使用模糊的原始数据进行评估,而是打造了 SN-Caption-test-align

  • 本质:这是对 SoccerNet-Caption 的人工精修版
  • 意义:它不仅是一个数据集,更是一个“公正的考官”。只有在时间戳绝对准确的考卷上拿到高分(如 CIDEr 分数的暴涨),才能证明对齐管线的有效性。

  • Baidu 特征最强:实验证明,相比通用的 CLIP,这种在足球领域“深造”过的模型(Baidu Soccer Embeddings)作为视觉编码器效果最佳。
  • 数据 > 模型:即便使用基础的 ResNet,只要用了对齐后的 MatchTime 数据集,表现甚至能超越在脏数据上跑的高级模型。

第二篇论文 Towards Universal Soccer Video Understanding

第二篇论文在第一篇论文的基础上提出了SoccerReplay-1988数据集。
并且提出了足球专用的解码器MatchVison

SoccerReplay-19886 Dataset

这篇文章阐述了这个作者是如何做这个数据集的,将视频分为上下两场,从starting at kick off开始。并且采用第一篇文章的MatchTime的对齐方式,通过手动进行人工对齐

alt text

对于模型我自己的理解:

本质上就是一个改进的video transformer

Token Embedding

空间切分: 每一帧图像 $ i $ 被切分成 $ M $ 个不重叠的小方块(Patches)。这就像把一张照片剪成方格阵列。

线性映射 ($\Phi_{Emb}$): 每个小方块被拉平并转换成一个维度为 $D$ 的向量。

双重位置编码 (Position Embedding): 这是关键。

  • 空间位置编码 ($e_s^{pos}$):告诉模型这个方块在画面的哪个位置(左上还是右下)。
  • 时间位置编码 ($e_t^{pos}$):在处理完整个视频序列后叠加,告诉模型这一组特征属于视频的第几秒。

[CLS] 标记: 每一帧都会加入一个特殊的 [cls] 标记,专门用来汇总这一帧的全局信息。

时空注意力模块

时间自注意力 ($\phi_t$):

  • 操作: 只在不同帧的相同空间位置的 Token 之间进行计算。
  • 目的: 追踪动作。例如,第1帧里的足球在左边,第2帧里的足球移动到了中间,时间注意力负责捕捉这个“移动”轨迹。

空间自注意力 ($\phi_s$):

  • 操作: 只在同一帧内部的不同 Token 之间进行计算。
  • 目的: 理解布局。例如,识别出这一帧画面里哪是球员、哪是球门、哪是裁判。

交替堆叠 ($K$ 次): 通过多次交替循环,模型既能看清每一帧的细节,又能理解动作在时间上的逻辑。

聚合层(Aggregation Layer)

在经过复杂的注意力计算后,模型需要把海量的数据“浓缩”成一个简洁的特征向量,供下游任务使用。

  • 空间聚合: 利用聚合层 $\Phi_{Agg}$,将每一帧中散落在各个 Patch 里的信息,全部压缩到该帧的 [cls] 标记中(得到 $\hat{F}_i^{CLS}$)。
  • 最终表示 ($F_V$): 将所有帧的 [cls] 标记拼接起来。
    • 结果: 得到的 $F_V$ 是一个矩阵,它每一行代表一帧的精华,整组矩阵代表了整个视频片段的精华。

预训练层

监督分类 (Supervised Classification, $\mathcal{L}_{sup}$)

  • 做法: 将提取出的视频特征 $F_V$ 通过一个时间自注意力层,汇总到一个可学习的 [cls] 标记中。
  • 计算: 这个标记被输入线性分类器,使用交叉熵损失 (Cross-Entropy Loss) 进行训练。
  • 目的: 让模型学会“看图识事”,即直接根据画面判断这是进球还是犯规。

视频-语言对比学习 (Video-Language Contrastive Learning, $\mathcal{L}_{contra}$)

  • 做法: 对视频特征进行平均池化得到 $F_V^{Avg}$,同时用文本编码器处理解说词 $C$。
  • 创新点: 借鉴了 SigLIP 的损失函数。
  • 正样本优化: 针对足球比赛中经常出现高度相似的解说(如“比赛开始”),模型将同一批次中相似度高的文本都视为正样本,增强了鲁棒性。
  • 目的: 建立视觉与文本的语义联系,为下游的解说生成任务打好基础。

疑问:

为什么是监督分类?

1. 足球语义的复杂性与明确性

  • 语义明确: 足球比赛中的关键事件(如进球、黄牌、换人)都有非常明确的官方定义和边界。
  • 监督优势: 监督分类通过使用专家标注的 Event Labels,能直接“教会”模型识别这些高层语义特征。相比之下,无监督学习(如传统的聚类或掩码建模)可能只会让模型学会识别“草坪是绿色的”或“球员在跑动”,而难以自发理解“这是一个越位”这种复杂的逻辑关系。

2. 预训练目标的互补性

根据文本,MatchVision 并不是只用监督学习,而是采用了混合策略

  • 监督分类 ($\mathcal{L}_{sup}$):负责建立视觉特征与官方动作标签的强关联。
  • 对比学习 ($\mathcal{L}_{contra}$):这其实具有一定的“弱监督”或“自监督”性质,它通过**视频与解说词(Textual Commentaries)**的匹配,让模型学习更丰富的语言描述能力。
  • 结合效果: 监督分类提供了“硬准则”(这是什么动作),而对比学习提供了“软语义”(这个动作怎么描述)。

3. 提升特征的判别力 (Discriminative Power)

  • 类内与类间差异: 足球视频中,很多动作看起来极其相似(例如,普通的传球和助攻传球在视觉上可能只有微小区别)。
  • 监督的作用: 使用交叉熵损失(Cross-Entropy Loss)的监督训练,会强制模型在特征空间中拉开不同事件类别的距离,从而在下游任务(如犯规识别)中表现得更精准。

4. 行业数据集的现状

  • 标注资源: 足球领域拥有如 SoccerNet 这样大规模且高质量的标注数据集。
  • 效率考量: 既然已经有了现成的“正确答案(Labels)”,直接使用监督学习进行预训练,比让模型在海量无标注视频中漫无目的地探索(无监督)要高效得多。

什么是cls和cmt

1. CLS (Event Classification - 事件分类)

CLSClassification 的缩写,主要负责“看图识事”,即识别视频中发生了什么特定事件。

  • 核心功能: 将输入的足球视频片段归类为预定义的事件标签,例如“进球”、“角球”、“黄牌”或“换人”。
  • 实现机制: * 模型会引入一个可学习的 [cls] token,通过时间自注意力机制(Temporal Self-attention)汇总整段视频的时空特征。
    • 该特征随后被送入一个线性分类器(Linear Classifier)进行处理。
  • 输出结果: 给出各个事件类别的概率分布,通常选取概率最高的一个作为最终判定结果(如:Type: “Yellow card”)。

2. CMT (Commentary Generation - 解说生成)

CMTCommentary 的缩写,主要负责“见图说话”,即生成像专业解说员一样的自然语言描述。

  • 核心功能: 自动为视频片段编写一段符合赛况的叙述性文字。
  • 实现机制:
    • 使用 Perceiver 聚合器 将复杂的视觉特征浓缩,并通过 MLP 映射为前缀嵌入(Prefix Embeddings)。
    • 这些视觉嵌入被输入到**大语言模型(LLM)**中,引导 LLM 根据画面内容生成文本。
  • 输出结果: 一段完整的句子,例如:“[REFEREE] shows a yellow card to [PLAYER]…”。

下游任务层

预训练完成后,视觉编码器被“冻结”或作为骨干网络,通过不同的预测头 ($\Psi$) 来适配具体任务:

事件分类 ($\Psi_{cls}$)

  • 机制: 结构与预训练的监督学习类似,使用时间自注意力聚合特征。
  • 训练逻辑:冻结视觉编码器的情况下,仅训练线性分类器。
  • 输出: 给出视频属于哪种事件(如:角球、黄牌)的概率分布。

解说生成 ($\Psi_{Cmt}$)

  • 核心组件: Perceiver 聚合器 + MLP + LLM(大语言模型)

  • 流程: 1. Perceiver 将海量的视觉特征压缩。

    \2. MLP 将其映射为 LLM 能听懂的“前缀嵌入(Prefix Embeddings)”。

    \3. LLM 根据这些“视觉前缀”像写作文一样生成解说词。

  • 损失函数: 使用负对数似然损失(Next-Token Prediction)。

犯规识别 ($\Psi_{Foul}$)

  • 输入: 足球比赛中常见的**多视角(Multi-view)**视频。
  • 处理: 使用池化技术(Max/Avg Pooling)将多视角特征整合为一个向量。
  • 双任务输出: 使用一个共享的 MLP 接两个分类器,同时预测:
    1. 犯规类型(如:铲球犯规、手球等,共 8 种)。
    2. 严重程度(如:口头警告、黄牌、红牌等,共 4 级)。

为什么要使用MLP

实现跨模态的特征对齐,不需要更强大的模型,简单的MLP足够胜任模态对齐工作

实验部分

基于他上面自己的soccer Replay 1988数据集进行实验

MatchVision在分类这个任务是达到了**82.5%**的准确率

证明对比学习比监督学习的效果更好

并且MatchVision在foul recongition方面,即使冻结了视觉编码器,也和顶尖模型不相上下

最后部分

使用了LoRA技术调教LLM

这篇论文有三个比较大的贡献

新资源:造出了迄今为止最大的足球数据集 SoccerReplay-1988

新模型:开发了专门针对足球时空特征的编码器 MatchVision

新标杆:在分类、解说、犯规识别等多个任务上都达到了世界领先水平 (SOTA)

Multi-Agent System for Comprehensive Soccer Understanding

引言

论文在引言部分介绍了现在的研究在足球理解研究的一些挑战

在推理任务上比较的局限(局限于视觉分析而缺少了推理)

以及模型过于的碎片化和专家化

这篇文章主要有四个贡献

构建了 SoccerWiki 知识库:这是第一个大规模的多模态足球知识库,集成了关于球员、球队、裁判和场地的丰富领域知识,旨在支持知识驱动的推理任务 。该库包含 9,471 名球员、266 支球队、202 名裁判和 235 个场地的详细信息 。

建立了 SoccerBench 基准测试集:这是目前最大且最全面的足球领域专项基准 。它通过自动化的数据策划和人工验证构建,包含约 1 万个多模态(文本、图像、视频)选择题对,涵盖了背景知识、比赛局势识别、犯规识别等 13 项不同的足球分析任务 。

开发了 SoccerAgent 多智能体系统:这是一种新型的多智能体协作系统,通过将复杂的足球问题分解为多个可执行的子任务来解决问题 。它利用了 SoccerWiki 的领域专家知识,并能够调用 18 个专项工具进行协作推理 。

进行了广泛的评估与对比:作者在 SoccerBench 上将 SoccerAgent 与 11 种代表性的多模态大语言模型(MLLMs,如 GPT-4o、Claude 3.7、Gemini 2.0 等)进行了深入对比 。评估结果突显了该智能体系统在处理复杂、知识密集型足球任务中的优越性 。101

介绍soccerBench

维度 包含任务 (Index) 考查重点
纯文本推理 (TextQA) Q1 背景知识, Q2 比赛局势 考查模型是否掌握了球员历史、转会、比赛战术等“足球常识”。
图像视觉感知 (ImageQA) Q3 相机状态分类, Q4 图片背景知识, Q5 球衣号码识别, Q6 比分与时间识别 考查模型对单张转播截图的解析力,例如识别“这是哪场比赛”、“这是几号球员”。
视频动态分析 (VideoQA) Q7 相机切换, Q8 回放定位, Q9 动作分类, Q10/Q11 评论生成与理解, Q12 球衣颜色识别, Q13 多视角犯规识别 最难的部分。考查模型能否理解动作的连贯性,并根据规则做出裁判级别的判断(如 Q13 判定是否犯规)。

研究动机

作者认为目前足球AI时效性不足,评价碎片化

作者构建了SoccerWIKI,并且在此基础上构建了SoccerBench

Data Curation

团队采用不同的策略生成原始问答对(模版生成,大模型生成)

并且转化成四选一的选择题

最后通过自动化合成再经过人工筛选,组成了SoccerBench

SoccerAgent

论文的核心部分

基于DeepSeek-V3的主模块协同工作

规划者 ($\mathcal{A}_{plan}$):负责“思考”。它接收问题后,并不直接回答,而是分析需要哪些步骤,从工具包里挑选出最合适的工具链

执行者 ($\mathcal{A}_{exec}$):负责“动手”。它按照规划好的顺序,一个接一个地运行工具。每一步都会参考之前的执行历史($\mathcal{H}_{i}$),从而实现上下文感知的自适应调整。

ToolBox

12 个足球专项工具

基础分析:动作分类器、评论生成 。

检索专家:比赛搜索、比赛历史/信息检索、人脸识别(从 SoccerWiki 匹配球员) 。

感知专家:相机状态检测、球衣号码/颜色识别、比分和时间识别 。

高级裁判犯规识别(通过多视角投票机制模拟 VAR)和回放定位 。

6 个通用解析工具

包括帧选择(将视频转为关键帧)、语义分割(定位特定物体)、实体搜索和文本检索等 。

实验部分

比较重点的:我认为是容错能力

自主调整: 执行者 ($\mathcal{A}_{exec}$) 在发现第一步失败后,并没有卡死,而是根据历史上下文自主调整策略,改用“比赛搜索”工具成功找回了所需信息 。

阅读全文

别再说 AI 不懂球:MatchTime 系列论文深度笔记

学术研究 2025/12/23

别再说 AI 不懂球:MatchTime 系列论文深度笔记(一)

核心痛点:消失的“16秒”

在足球视频领域,传统的解说词数据存在严重的音画不同步。由于原始数据大多抓取自实时文字直播,解说词往往比实际进球画面晚了 16.63 秒甚至更多。如果直接用这种“脏数据”训练,AI 只会学会“马后炮”。


第一章:数据治本——如何通过数学实现“降维打击”

论文的核心贡献在于 Section 3.2 (Temporal Alignment Pipeline),它展示了如何用一套自动化的管线将滞后的文本“拽”回正确的帧。

1. 亲和力矩阵 (Affinity Matrix):连连看的底牌

为了对齐视频帧(Visual Frames)和解说词(Text Captions),作者引入了 Affinity Matrix $\mathbb{A}$

  • 它是怎么来的? 假设视频有$n$ 帧,文本有 $k$ 句,矩阵的大小就是$k \times n$ 。

核心公式推导:亲和力矩阵 (Affinity Matrix)

在计算视频帧 $V_j$ 与文本 $C_i$ 的相似度时,公式表达为:

$$\mathbb{A}[i, j] = \frac{C_i \cdot V_j^T}{||C_i|| \cdot ||V_j|| \cdot \tau}$$

公式拆解:

  • 分子 ($C_i \cdot V_j^T$):特征向量的点积,衡量方向一致性。
  • 分母 ($||C_i|| \cdot ||V_j||$):$L_2$ 范数归一化,确保计算的是余弦相似度
  • $\tau$:温度参数,用来控制相似度分布的平滑度。
  • 深度解析
  • ** 是什么?** 这是向量的 ** 范数**(模长)。之所以要除以它,是为了进行归一化,将计算锁定为余弦相似度。我们只关心文本和画面的“语义方向”是否一致,而不关心特征向量本身的绝对大小。
  • 为什么要算这个? 通过寻找矩阵每一行中的最大值(),模型能自动锁死每一句解说词对应的“高光时刻”。

第二章:模型架构——MatchVoice 的“翻译”逻辑

MatchVoice 的本质是一个多模态大模型 (MLLM)。它通过一套精密设计的组件,将视频“翻译”成文字。

1. 为什么视觉编码器 (Visual Encoder) 要冻结?

在架构图中,你会看到视觉部分(如 CLIP 或 Baidu 特征)被打上了“雪花”图标(Frozen)。

  • 策略:冻结预训练好的编码器可以保持其强大的通用特征提取能力,同时大幅降低训练成本。

2. Learnable Queries & Attention:精准探测器

  • Learnable Queries:它们不是来自视频,而是模型内置的“探测员”。
  • 自注意力 (Self-Attention):让这群“探测员”在出发前先开个会,分工合作(比如有的看人,有的看球)。
  • 交叉注意力 (Cross-Attention):这是关键!探测员拿着清单去视频特征(超市货架)里取货,把散落在时空中的信息吸收到 Query 向量中。
    alt text

3. 从投影到生成:MLP 与 Prefix Tokens

  • MLP 的翻译官作用:视觉特征与 LLM 的维度往往不匹配。MLP (Projection Layer) 就像转换插头,将视觉特征投影到 LLM 能听懂的空间。
  • Prefix Tokens (紫色方块):这是 MLP 输出的唯一成果。它们作为“视觉前缀”喂给 LLM(如 LLaMA-3)。
  • 生成逻辑:$C = \Psi_{dec}(\Psi_{proj}(F))$。:。LLM 接收到视觉前缀后,开始顺着这个背景一个词一个词地吐出蓝色的 Commentary Tokens

第三章:评估的“金标准”——SN-Caption-test-align

为了证明 AI 真的看懂了球,作者没有使用模糊的原始数据进行评估,而是打造了 SN-Caption-test-align

  • 本质:这是对 SoccerNet-Caption 的人工精修版
  • 意义:它不仅是一个数据集,更是一个“公正的考官”。只有在时间戳绝对准确的考卷上拿到高分(如 CIDEr 分数的暴涨),才能证明对齐管线的有效性。

  • Baidu 特征最强:实验证明,相比通用的 CLIP,这种在足球领域“深造”过的模型(Baidu Soccer Embeddings)作为视觉编码器效果最佳。
  • 数据 > 模型:即便使用基础的 ResNet,只要用了对齐后的 MatchTime 数据集,表现甚至能超越在脏数据上跑的高级模型。

第二篇论文 Towards Universal Soccer Video Understanding

第二篇论文在第一篇论文的基础上提出了SoccerReplay-1988数据集。
并且提出了足球专用的解码器MatchVison

SoccerReplay-19886 Dataset

这篇文章阐述了这个作者是如何做这个数据集的,将视频分为上下两场,从starting at kick off开始。并且采用第一篇文章的MatchTime的对齐方式,通过手动进行人工对齐

alt text

对于模型我自己的理解:

本质上就是一个改进的video transformer

Token Embedding

空间切分: 每一帧图像 $ i $ 被切分成 $ M $ 个不重叠的小方块(Patches)。这就像把一张照片剪成方格阵列。

线性映射 ($\Phi_{Emb}$): 每个小方块被拉平并转换成一个维度为 $D$ 的向量。

双重位置编码 (Position Embedding): 这是关键。

  • 空间位置编码 ($e_s^{pos}$):告诉模型这个方块在画面的哪个位置(左上还是右下)。
  • 时间位置编码 ($e_t^{pos}$):在处理完整个视频序列后叠加,告诉模型这一组特征属于视频的第几秒。

[CLS] 标记: 每一帧都会加入一个特殊的 [cls] 标记,专门用来汇总这一帧的全局信息。

时空注意力模块

时间自注意力 ($\phi_t$):

  • 操作: 只在不同帧的相同空间位置的 Token 之间进行计算。
  • 目的: 追踪动作。例如,第1帧里的足球在左边,第2帧里的足球移动到了中间,时间注意力负责捕捉这个“移动”轨迹。

空间自注意力 ($\phi_s$):

  • 操作: 只在同一帧内部的不同 Token 之间进行计算。
  • 目的: 理解布局。例如,识别出这一帧画面里哪是球员、哪是球门、哪是裁判。

交替堆叠 ($K$ 次): 通过多次交替循环,模型既能看清每一帧的细节,又能理解动作在时间上的逻辑。

聚合层(Aggregation Layer)

在经过复杂的注意力计算后,模型需要把海量的数据“浓缩”成一个简洁的特征向量,供下游任务使用。

  • 空间聚合: 利用聚合层 $\Phi_{Agg}$,将每一帧中散落在各个 Patch 里的信息,全部压缩到该帧的 [cls] 标记中(得到 $\hat{F}_i^{CLS}$)。
  • 最终表示 ($F_V$): 将所有帧的 [cls] 标记拼接起来。
    • 结果: 得到的 $F_V$ 是一个矩阵,它每一行代表一帧的精华,整组矩阵代表了整个视频片段的精华。

预训练层

监督分类 (Supervised Classification, $\mathcal{L}_{sup}$)

  • 做法: 将提取出的视频特征 $F_V$ 通过一个时间自注意力层,汇总到一个可学习的 [cls] 标记中。
  • 计算: 这个标记被输入线性分类器,使用交叉熵损失 (Cross-Entropy Loss) 进行训练。
  • 目的: 让模型学会“看图识事”,即直接根据画面判断这是进球还是犯规。

视频-语言对比学习 (Video-Language Contrastive Learning, $\mathcal{L}_{contra}$)

  • 做法: 对视频特征进行平均池化得到 $F_V^{Avg}$,同时用文本编码器处理解说词 $C$。
  • 创新点: 借鉴了 SigLIP 的损失函数。
  • 正样本优化: 针对足球比赛中经常出现高度相似的解说(如“比赛开始”),模型将同一批次中相似度高的文本都视为正样本,增强了鲁棒性。
  • 目的: 建立视觉与文本的语义联系,为下游的解说生成任务打好基础。

疑问:

为什么是监督分类?

1. 足球语义的复杂性与明确性

  • 语义明确: 足球比赛中的关键事件(如进球、黄牌、换人)都有非常明确的官方定义和边界。
  • 监督优势: 监督分类通过使用专家标注的 Event Labels,能直接“教会”模型识别这些高层语义特征。相比之下,无监督学习(如传统的聚类或掩码建模)可能只会让模型学会识别“草坪是绿色的”或“球员在跑动”,而难以自发理解“这是一个越位”这种复杂的逻辑关系。

2. 预训练目标的互补性

根据文本,MatchVision 并不是只用监督学习,而是采用了混合策略

  • 监督分类 ($\mathcal{L}_{sup}$):负责建立视觉特征与官方动作标签的强关联。
  • 对比学习 ($\mathcal{L}_{contra}$):这其实具有一定的“弱监督”或“自监督”性质,它通过**视频与解说词(Textual Commentaries)**的匹配,让模型学习更丰富的语言描述能力。
  • 结合效果: 监督分类提供了“硬准则”(这是什么动作),而对比学习提供了“软语义”(这个动作怎么描述)。

3. 提升特征的判别力 (Discriminative Power)

  • 类内与类间差异: 足球视频中,很多动作看起来极其相似(例如,普通的传球和助攻传球在视觉上可能只有微小区别)。
  • 监督的作用: 使用交叉熵损失(Cross-Entropy Loss)的监督训练,会强制模型在特征空间中拉开不同事件类别的距离,从而在下游任务(如犯规识别)中表现得更精准。

4. 行业数据集的现状

  • 标注资源: 足球领域拥有如 SoccerNet 这样大规模且高质量的标注数据集。
  • 效率考量: 既然已经有了现成的“正确答案(Labels)”,直接使用监督学习进行预训练,比让模型在海量无标注视频中漫无目的地探索(无监督)要高效得多。

什么是cls和cmt

1. CLS (Event Classification - 事件分类)

CLSClassification 的缩写,主要负责“看图识事”,即识别视频中发生了什么特定事件。

  • 核心功能: 将输入的足球视频片段归类为预定义的事件标签,例如“进球”、“角球”、“黄牌”或“换人”。
  • 实现机制: * 模型会引入一个可学习的 [cls] token,通过时间自注意力机制(Temporal Self-attention)汇总整段视频的时空特征。
    • 该特征随后被送入一个线性分类器(Linear Classifier)进行处理。
  • 输出结果: 给出各个事件类别的概率分布,通常选取概率最高的一个作为最终判定结果(如:Type: “Yellow card”)。

2. CMT (Commentary Generation - 解说生成)

CMTCommentary 的缩写,主要负责“见图说话”,即生成像专业解说员一样的自然语言描述。

  • 核心功能: 自动为视频片段编写一段符合赛况的叙述性文字。
  • 实现机制:
    • 使用 Perceiver 聚合器 将复杂的视觉特征浓缩,并通过 MLP 映射为前缀嵌入(Prefix Embeddings)。
    • 这些视觉嵌入被输入到**大语言模型(LLM)**中,引导 LLM 根据画面内容生成文本。
  • 输出结果: 一段完整的句子,例如:“[REFEREE] shows a yellow card to [PLAYER]…”。

下游任务层

预训练完成后,视觉编码器被“冻结”或作为骨干网络,通过不同的预测头 ($\Psi$) 来适配具体任务:

事件分类 ($\Psi_{cls}$)

  • 机制: 结构与预训练的监督学习类似,使用时间自注意力聚合特征。
  • 训练逻辑:冻结视觉编码器的情况下,仅训练线性分类器。
  • 输出: 给出视频属于哪种事件(如:角球、黄牌)的概率分布。

解说生成 ($\Psi_{Cmt}$)

  • 核心组件: Perceiver 聚合器 + MLP + LLM(大语言模型)

  • 流程: 1. Perceiver 将海量的视觉特征压缩。

    \2. MLP 将其映射为 LLM 能听懂的“前缀嵌入(Prefix Embeddings)”。

    \3. LLM 根据这些“视觉前缀”像写作文一样生成解说词。

  • 损失函数: 使用负对数似然损失(Next-Token Prediction)。

犯规识别 ($\Psi_{Foul}$)

  • 输入: 足球比赛中常见的**多视角(Multi-view)**视频。
  • 处理: 使用池化技术(Max/Avg Pooling)将多视角特征整合为一个向量。
  • 双任务输出: 使用一个共享的 MLP 接两个分类器,同时预测:
    1. 犯规类型(如:铲球犯规、手球等,共 8 种)。
    2. 严重程度(如:口头警告、黄牌、红牌等,共 4 级)。

为什么要使用MLP

实现跨模态的特征对齐,不需要更强大的模型,简单的MLP足够胜任模态对齐工作

实验部分

基于他上面自己的soccer Replay 1988数据集进行实验

MatchVision在分类这个任务是达到了**82.5%**的准确率

证明对比学习比监督学习的效果更好

并且MatchVision在foul recongition方面,即使冻结了视觉编码器,也和顶尖模型不相上下

最后部分

使用了LoRA技术调教LLM

这篇论文有三个比较大的贡献

新资源:造出了迄今为止最大的足球数据集 SoccerReplay-1988

新模型:开发了专门针对足球时空特征的编码器 MatchVision

新标杆:在分类、解说、犯规识别等多个任务上都达到了世界领先水平 (SOTA)

Multi-Agent System for Comprehensive Soccer Understanding

引言

论文在引言部分介绍了现在的研究在足球理解研究的一些挑战

在推理任务上比较的局限(局限于视觉分析而缺少了推理)

以及模型过于的碎片化和专家化

这篇文章主要有四个贡献

构建了 SoccerWiki 知识库:这是第一个大规模的多模态足球知识库,集成了关于球员、球队、裁判和场地的丰富领域知识,旨在支持知识驱动的推理任务 。该库包含 9,471 名球员、266 支球队、202 名裁判和 235 个场地的详细信息 。

建立了 SoccerBench 基准测试集:这是目前最大且最全面的足球领域专项基准 。它通过自动化的数据策划和人工验证构建,包含约 1 万个多模态(文本、图像、视频)选择题对,涵盖了背景知识、比赛局势识别、犯规识别等 13 项不同的足球分析任务 。

开发了 SoccerAgent 多智能体系统:这是一种新型的多智能体协作系统,通过将复杂的足球问题分解为多个可执行的子任务来解决问题 。它利用了 SoccerWiki 的领域专家知识,并能够调用 18 个专项工具进行协作推理 。

进行了广泛的评估与对比:作者在 SoccerBench 上将 SoccerAgent 与 11 种代表性的多模态大语言模型(MLLMs,如 GPT-4o、Claude 3.7、Gemini 2.0 等)进行了深入对比 。评估结果突显了该智能体系统在处理复杂、知识密集型足球任务中的优越性 。101

介绍soccerBench

维度 包含任务 (Index) 考查重点
纯文本推理 (TextQA) Q1 背景知识, Q2 比赛局势 考查模型是否掌握了球员历史、转会、比赛战术等“足球常识”。
图像视觉感知 (ImageQA) Q3 相机状态分类, Q4 图片背景知识, Q5 球衣号码识别, Q6 比分与时间识别 考查模型对单张转播截图的解析力,例如识别“这是哪场比赛”、“这是几号球员”。
视频动态分析 (VideoQA) Q7 相机切换, Q8 回放定位, Q9 动作分类, Q10/Q11 评论生成与理解, Q12 球衣颜色识别, Q13 多视角犯规识别 最难的部分。考查模型能否理解动作的连贯性,并根据规则做出裁判级别的判断(如 Q13 判定是否犯规)。

研究动机

作者认为目前足球AI时效性不足,评价碎片化

作者构建了SoccerWIKI,并且在此基础上构建了SoccerBench

Data Curation

团队采用不同的策略生成原始问答对(模版生成,大模型生成)

并且转化成四选一的选择题

最后通过自动化合成再经过人工筛选,组成了SoccerBench

SoccerAgent

论文的核心部分

基于DeepSeek-V3的主模块协同工作

规划者 ($\mathcal{A}_{plan}$):负责“思考”。它接收问题后,并不直接回答,而是分析需要哪些步骤,从工具包里挑选出最合适的工具链

执行者 ($\mathcal{A}_{exec}$):负责“动手”。它按照规划好的顺序,一个接一个地运行工具。每一步都会参考之前的执行历史($\mathcal{H}_{i}$),从而实现上下文感知的自适应调整。

ToolBox

12 个足球专项工具

基础分析:动作分类器、评论生成 。

检索专家:比赛搜索、比赛历史/信息检索、人脸识别(从 SoccerWiki 匹配球员) 。

感知专家:相机状态检测、球衣号码/颜色识别、比分和时间识别 。

高级裁判犯规识别(通过多视角投票机制模拟 VAR)和回放定位 。

6 个通用解析工具

包括帧选择(将视频转为关键帧)、语义分割(定位特定物体)、实体搜索和文本检索等 。

实验部分

比较重点的:我认为是容错能力

自主调整: 执行者 ($\mathcal{A}_{exec}$) 在发现第一步失败后,并没有卡死,而是根据历史上下文自主调整策略,改用“比赛搜索”工具成功找回了所需信息 。

阅读全文

样式迁移

2025/11/20

简介

样式迁移:将一个图片的风格样式转移到另一个图片上

最早的样式迁移:基于CNN的样式迁移
基于CNN的样式迁移
alt text

阅读全文

科研实习寻找经验

2025/11/11

USTC 张少峰老师

投递的USTC人工智能与大数据实验室,张少峰老师,未被回复

10 月 28 日

再度投递,依旧未回复

11 月 11 日

找到的招科研实习的老师

SJTU 张林峰 老师

研究方向:Efficient AI
招聘界面:
https://zhuanlan.zhihu.com/p/1910049209664660559
实验室主页:
www.zhanglinfeng.tech
老师邮箱:zhanglinfeng@sjtu.edu.cn

NJU 刘佳恒老师

南京大学-大规模智能与知识实验室(NJU-LINK, Large-scale Intelligence and Knowledge Lab)
老师邮箱:211300096@smail.nju.edu.cn
招聘界面:
https://www.nju-link.com/zh/post/25-7-21-recruit2/

RUC 金琴老师

投递邮箱:aim3.ruc@gmail.com
邮件中附上简历、兴趣方向和预期的实习时间等信息
实验室主页:
https://www.ruc-aim3.com/
招聘界面:
https://zhuanlan.zhihu.com/p/1917932252114973992

西湖大学 Westlake university

LINs Lab
实验室主页:
https://lins-lab.github.io/
招聘界面:
https://zhuanlan.zhihu.com/p/690440155

11 月 13日

NJU 范崎老师

智能科学与技术学院
申请要求:

  1. 热爱科研(最最重要!)
  2. 有一定的相关基础
  3. 在读本科生、硕士生、博士生均可。也欢迎已经毕业的朋友进行科研合作
  4. 线下线上均可

联系方式:fanqi@nju.edu.cn
请附带简历和成绩单

已经错过时间但是可以去了解的计划:

西湖大学 暑期研究计划

中国科学院大学 大学生创新实践训练集计划

阅读全文

计算机网络

2025/5/9

第一章

1.1

1.1_1 计算机网络的概念

什么是计算机网络
计算机网络是一个将众多分散的,自治的计算机系统,通过通信设备与线路连接起来,由功能完善的软件实现资源共享和信息传递的系统。
计算机网络vs互连网vs互联网
计算机网络:由若干结点和连接这些节点的链路组成的。
结点可以是:计算机,集线器,交换机,路由器。
链路可以是有线链路,无线链路。
互连网:若干个计算机网络通过路由器连接起来的网络。
ISP:互联网服务提供商
互联网:由多个互连网通过路由器连接起来的网络。
TCP/IP协议:
互联网必须用TCP/IP协议,而互连网则可以用不同的协议。

1.1_2 计算机网络的组成和功能

计算机网络的功能

1.1_3_1 电路交换 报文交换 分组交换

电路交换:通过物理线路的连接,动态的分配传输线路资源

电路交换的优点:
通信前从主叫端到被叫端建立一条专用的物理通路,在通信的全部时间内,两个用户始终占用端到端的线路资源。数据直送,传输速率高
电路交换更适用于:低频次、大量地传输数据
电路交换的缺点:
建立/释放连接,需长额外的时间开销

报文交换:

报文交换的优点:
·通信前无需建立连接
数据以“报文”为单位被交换节点间“存储转发”,通信线路可以灵活分配
在通信时间内,两个用户无需独占一整条物理线路。相比于电路交换,线路利用率高
交换节点支持“差错控制”(通过校验技术)
报文交换的缺点:
报文不定长,不方便存储转发管理
长报文的存储转发时间开销大、缓存开销大长报文容易出错,重传代价高

**分组交换:**将长报文的数据切成定长的数据

分组交换的优点:
通信前无需建立连接
数据以“分组”为单位被交换节点间“存储转发”,通信线路可以灵活分配
在通信时间内,两个用户无需独占一整条物理线路。相比于电路交换,线路利用率高
交换节点支持“差错控制”(通过校验技术)
相比于报文交换,分组交换改进了如下问题:
分组定长,方便存储转发管理
分组的存储转发时间开销小、缓存开销小
分组不易出错,重传代价低
分组交换的缺点:
相比于报文交换,控制信息占比增加
相比于电路交换,依然存在存储转发时延

虚电路交换

阅读全文

ResNet

2025/4/28

核心思想

加更多层不会让你变差

残差块

f(x) = x + g(x)

阅读全文

批量归一化

2025/4/28

问题分析

损失出现在最后,后面的层训练较快,数据在最底部。

底部的层训练较慢,底部层一变化,所有都得跟着变,最后的那些层需要重新学习多次,导致收敛变慢。
底部的层训练较慢
底部层一变化,所有都得跟着变
最后的那些层需要重新学习多次
导致收敛变慢

阅读全文

含并行连结的网络GoogLeNet

2025/4/28

GoogLeNet

第一个可以做到超过100层的卷积神经网络,致敬LeNet

Inception块

使用不同窗口大小的卷积层
致敬LeNet
Inception块:
使用不同窗口大小的卷积层
alt text

GoogLeNet
alt text

阅读全文
avatar
Izumi Sagiri

Description
我永远喜欢和泉纱雾