Spaces:

JaceWei
/

PaperShow

Running

App Files Files Community

PaperShow / Paper2Video /README-CN.md

ZaynZhu

Clean version without large assets

7c08dc3 26 days ago

preview code

raw

history blame contribute delete

10.4 kB

Paper2Video

English | 简体中文

Paper2Video: 从学术论文自动生成演讲视频

Zeyu Zhu*, Kevin Qinghong Lin*, Mike Zheng Shou
新加坡国立大学 Show Lab

📄 论文 | 🤗 Daily Paper | 📊 数据集 | 🌐 项目主页 | 💬 推特

输入: 一篇论文 ➕ 一张图像 ➕ 一段音频

论文	图像	音频
🔗 论文链接	Hinton的图像	🔗 音频样本

输出: 演讲视频

https://github.com/user-attachments/assets/39221a9a-48cb-4e20-9d1c-080a5d8379c4

查看更多生成结果 🌐 project page.

🔥 Update

[2025.10.11] 我们的工作在YC Hacker News上受到关注.
[2025.10.9] 感谢AK在Twitter上分享我们的工作!
[2025.10.9] 我们的工作被 Medium报道.
[2025.10.8] 下方查看我们的demo视频!
[2025.10.7] 我们发布了 Arxiv 论文.
[2025.10.6] 我们发布了代码 and 数据集.
[2025.9.28] Paper2Video 已经被 Scaling Environments for Agents Workshop(SEA) at NeurIPS 2025 接受.

https://github.com/user-attachments/assets/a655e3c7-9d76-4c48-b946-1068fdb6cdd9

🌟 项目总览
🚀 快速上手: PaperTalker
📊 评价指标: Paper2Video
😼 乐趣: Paper2Video 生成 Paper2Video 演讲视频
🙏 致谢
📌 引用

🌟 项目总览

Overview

这项工作解决了学术演讲的两个核心问题:

左边: 如何根据论文制作学术演讲?
PaperTalker — 集成幻灯片、字幕、光标、语音合成和演讲者视频渲染的多智能体。
右边: 如何评估学术演讲视频?
Paper2Video — 一个具有精心设计的指标来评估演示质量的基准。

🚀 尝试 PaperTalker 为你的论文制作演讲视频 !

Approach

1. 环境配置

准备Python环境:

cd src
conda create -n p2v python=3.10
conda activate p2v
pip install -r requirements.txt
conda install -c conda-forge tectonic

下载所依赖代码，并按照Hallo2中的说明下载模型权重。

git clone https://github.com/fudan-generative-vision/hallo2.git

您需要单独准备用于 talking-head generation 的环境，以避免潜在的软件包冲突，请参考Hallo2。安装完成后，使用 which python 命令获取 Python 环境路径。

cd hallo2
conda create -n hallo python=3.10
conda activate hallo
pip install -r requirements.txt

2. 大语言模型配置

在终端配置您的API 凭证:

export GEMINI_API_KEY="your_gemini_key_here"
export OPENAI_API_KEY="your_openai_key_here"

最佳实践是针对 LLM 和 VLM 使用 GPT4.1 或 Gemini2.5-Pro。我们也支持本地部署开源模型（例如 Qwen），详情请参阅 Paper2Poster。

3. 推理

脚本 pipeline.py 提供了一个自动化的学术演示视频生成流程。它以 LaTeX 论文素材 和 参考图像/音频 作为输入，并经过多个子模块（幻灯片 → 字幕 → 语音 → 光标 → 头部特写）生成完整的演示视频。⚡ 运行此流程的最低推荐 GPU 为 NVIDIA A6000，显存 48G。

示例用法

运行以下命令来启动完整生成：

python pipeline.py \
    --model_name_t gpt-4.1 \
    --model_name_v gpt-4.1 \
    --model_name_talking hallo2 \
    --result_dir /path/to/output \
    --paper_latex_root /path/to/latex_proj \
    --ref_img /path/to/ref_img.png \
    --ref_audio /path/to/ref_audio.wav \
    --talking_head_env /path/to/hallo2_env \
    --gpu_list [0,1,2,3,4,5,6,7]

参数名	类型	默认值	说明
`--model_name_t`	`str`	`gpt-4.1`	文本大语言模型（LLM）
`--model_name_v`	`str`	`gpt-4.1`	视觉语言模型（VLM）
`--model_name_talking`	`str`	`hallo2`	Talking Head 模型。目前仅支持 hallo2
`--result_dir`	`str`	`/path/to/output`	输出目录（包括幻灯片、字幕、视频等）
`--paper_latex_root`	`str`	`/path/to/latex_proj`	论文 LaTeX 项目的根目录
`--ref_img`	`str`	`/path/to/ref_img.png`	参考图像（必须为正方形人像）
`--ref_audio`	`str`	`/path/to/ref_audio.wav`	参考音频（建议时长约为 10 秒）
`--ref_text`	`str`	`None`	可选参考文本（用于字幕风格指导）
`--beamer_templete_prompt`	`str`	`None`	可选参考文本（用于幻灯片风格指导）
`--gpu_list`	`list[int]`	`""`	GPU 列表，用于并行执行（适用于光标生成与 Talking Head 渲染）
`--if_tree_search`	`bool`	`True`	是否启用树搜索（用于幻灯片布局优化）
`--stage`	`str`	`"[0]"`	需要运行的阶段（例如 `[0]` 表示完整流程，`[1,2,3]` 表示部分阶段）
`--talking_head_env`	`str`	`/path/to/hallo2_env`	Talking Head 生成的 Python 环境路径

📊 评价指标: Paper2Video

Metrics

与自然视频生成不同，学术演示视频发挥着高度专业化的作用：它们不仅关乎视觉保真度，更关乎学术交流。这使得直接应用视频合成中的传统指标（例如 FVD、IS 或基于 CLIP 的相似度）变得困难。相反，它们的价值在于它们如何有效地传播研究成果并提升学术知名度。从这个角度来看，我们认为，评判高质量的学术演示视频应该从两个互补的维度进行评判：

对于观众

视频应忠实传达论文的核心思想。
视频应易于不同受众观看。

对于作者

视频应突出作者的智力贡献和身份。
视频应提升作品的知名度和影响力。

为了实现这些目标，我们引入了专门为学术演示视频设计的评估指标：Meta Similarity, PresentArena, PresentQuiz, IP Memory.

运行评价

准备环境：

cd src/evaluation
conda create -n p2v_e python=3.10
conda activate p2v_e
pip install -r requirements.txt

对于 Meta Similarity 和 PresentArena：

python MetaSim_audio.py --r /path/to/result_dir --g /path/to/gt_dir --s /path/to/save_dir
python MetaSim_content.py --r /path/to/result_dir --g /path/to/gt_dir --s /path/to/save_dir

python PresentArena.py --r /path/to/result_dir --g /path/to/gt_dir --s /path/to/save_dir

对于PresentQuiz，首先基于论文生成问题并使用 Gemini 进行评估：

cd PresentQuiz
python create_paper_questions.py ----paper_folder /path/to/data
python PresentQuiz.py --r /path/to/result_dir --g /path/to/gt_dir --s /path/to/save_dir

对于IP Memory，首先从生成的视频中生成问题对，然后使用 Gemini 进行评估：

cd IPMemory
python construct.py
python ip_qa.py

更多详情请查看代码！

👉 Paper2Video 数据集可在以下网址获取： HuggingFace

😼 乐趣: Paper2Video 生成 Paper2Video 演讲视频

查看 Paper2Video 生成 Paper2Video 演讲视频:

https://github.com/user-attachments/assets/ff58f4d8-8376-4e12-b967-711118adf3c4

🙏 致谢

数据集中演示视频的来源是 SlideLive 和 YouTube。
感谢所有为制作演示视频付出辛勤努力的作者！
感谢 CAMEL 开源了组织良好的多智能体框架代码库。
感谢 Hallo2 和 Paper2Poster 作者开源代码。
感谢 Wei Jia 在数据收集和baselines实现方面所做的努力。我们也感谢所有参与用户调研的参与者。
感谢所有 Show Lab @ NUS 成员的支持！

📌 引用

如果我们的工作对您有帮助，欢迎引用我们的工作：

@misc{paper2video,
      title={Paper2Video: Automatic Video Generation from Scientific Papers}, 
      author={Zeyu Zhu and Kevin Qinghong Lin and Mike Zheng Shou},
      year={2025},
      eprint={2510.05096},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2510.05096}, 
}