⏰TIM: A Large-Scale Dataset and large Timeline Intelligence Model for Open-domain Timeline Summarization
📃 Paper: coming soon
📕 Dataset: coming soon
💻 Model: coming soon
- 我们推出并开源了第一个大规模TLS数据集。基于数据集训练一个大的时间线智能模型(TIM)。
- 我们提出了一种新的渐进优化策略,增强了对主题相关性和主题演化的理解。
- 实验结果表明,我们的模型在开放域TLS上优于一般LLM。此外,性能随着模型大小的增加而持续提高,进一步验证了我们数据集的有效性。
我们提供了web服务可以快速实现我们的框架,在开始前,需要在web_search.py中修改Config,替换搜索的API Key和模型的API Key。参考requirement.txt安装必要的依赖。
QIHOO_API_KEY = '[API KEY]'
QIHOO_API_URL = "[API_URL]"
QIHOO_KEY = "[API KEY]"
OPENAI_API_BASE = "[API_URL]"
OPENAI_API_KEY = "[API KEY]"
OPENAI_MODEL = "[MODEL NAME]"注:该demo基于QIHOO API构建搜索引擎,可自行替换Bing search等搜索引擎。
替换API和API key后,运行
python web_ui.py除web版本外,我们提供了离线版本,帮助开发者们自行收集TLS数据,具体详情参考/timeline_generate/
根据新闻关键词获取时间线跑此代码
/timeline_generate/timeline_generate.py
Config中配置API_MODEL_NAME和OPENAI_API_KEY
INPUT_FILE为构建的开放域测试集,格式json文件,格式为:
{
"id": "1",
"title": "标题",
"keywords": "关键词",
"gt_timeline": "时间线",
}
OUTPUT_FILE跟随API_MODEL_NAME,设置好路径即可
用api跑测试集用此代码
/timeline_generate/base_on_dataset_timeline_api_gen_merge.py
测试脚本运行 scripts/run_evaluate.sh,注意确认gt_file为测试集,pred_file为api的结果json。
gt_file="PATH"
pred_file="PATH"
python test/evaluate_timeline.py \
--ground-truth-file $gt_file \
--pred-file $pred_file \
--processes 10注:若模型出现拒答,需要在测试集添加拒绝回答的id到skip_samples中,重新运行脚本。
本数据集中的内容均来自公开网络及AI生成,可能存在不准确、过时或偏见内容。使用者应自行验证数据并承担相关风险,本仓库维护者不对任何直接或间接后果负责。如发现侵权或违规内容,请通过 Issues 提交反馈,我们将及时处理。
如果我们的工作对您有帮助,请按如下格式引用我们的仓库:
@misc{TIM,
title = {TIM: A Large-Scale Dataset and large Timeline Intelligence Model for Open-domain Timeline Summarization},
author = {qihoo360},
howpublished = {\url{https://github.com/chuanruihu/timeline_topic_summary/tree/master}},
year = {2025}
}

