本项目提供了多个Python爬虫脚本,用于爬取IROS 2025国际会议的日程信息,帮助研究人员安排会议行程。
-
accurate_iros_crawler.py- 精确版单页面爬虫- 成功解析889条高质量记录
- 正确解析作者和研究单位对应关系
- 提供最准确的数据结构
-
multi_page_crawler.py- 多页面爬虫 ✅ 推荐使用- 爬取三个组织格式相同的网站
- 总共解析2655条记录(第1页889条,第2页894条,第3页872条)
- 分别保存为不同的文件组,命名清晰
-
optimized_schedule_organizer.py- 优化版日程组织器 ✅ 行程安排专用- 按照会场地理位置组织列
- 相同地理位置的会场在同一列(如TuAT1和TuBT1都在"会场1"列)
- 按数字顺序排列会场(会场1、会场2、会场3...)
- 去除Session ID字段,界面更简洁
- 显示完整论文标题,便于复制和搜索
iros2025_page1_schedule.xlsx/csv- 第1页数据(889条记录)iros2025_page2_schedule.xlsx/csv- 第2页数据(894条记录)iros2025_page3_schedule.xlsx/csv- 第3页数据(872条记录)iros2025_combined_schedule.xlsx/csv- 合并数据(2655条记录)
iros2025_page1_clean_schedule.xlsx/csv- 第1页优化版日程表(32×31,包含完整内容)✅ 已修复iros2025_page2_clean_schedule.xlsx/csv- 第2页优化版日程表(32×31,包含完整内容)✅ 已修复iros2025_page3_clean_schedule.xlsx/csv- 第3页优化版日程表(32×31,包含完整内容)✅ 已修复
爬虫生成的数据包含以下信息:
| 字段名 | 说明 | 数据完整性 |
|---|---|---|
paper_id |
论文ID (如 TuAT1.1) | 100% |
time_range |
时间安排 (如 10:30-10:35) | 100% |
paper_title |
论文标题 | 100% |
first_author |
第一作者 | 99.8% |
last_author |
最后作者 | 99.8% |
all_authors |
所有作者列表 | 99.8% |
author_affiliation_pairs |
作者-单位对应关系 | 99.8% |
affiliations |
研究单位信息 | 99.8% |
keywords |
关键词 | 0% (需要改进) |
# 运行多页面爬虫(爬取三个网站)
python multi_page_crawler.py# 运行精确版单页面爬虫
python accurate_iros_crawler.py# 运行优化版日程组织器
python optimized_schedule_organizer.pyiros2025_page1_schedule.xlsx/csv- 第1页原始数据iros2025_page2_schedule.xlsx/csv- 第2页原始数据iros2025_page3_schedule.xlsx/csv- 第3页原始数据iros2025_combined_schedule.xlsx/csv- 合并所有页面数据
iros2025_page1_clean_schedule.xlsx/csv- 第1页优化版日程表iros2025_page2_clean_schedule.xlsx/csv- 第2页优化版日程表iros2025_page3_clean_schedule.xlsx/csv- 第3页优化版日程表
- 多页面支持:支持爬取多个组织格式相同的网站
- 精确解析:正确解析作者和研究单位对应关系
- 优化显示:去除Session ID,显示完整论文标题
- 会场组织:按地理位置组织会场,便于行程安排
- 错误处理:包含网络请求异常处理和重试机制
- 数据清洗:自动过滤和整理数据格式
- 多格式输出:同时生成CSV和Excel文件
- 智能会场映射:自动识别会场映射关系,失败时使用默认配置 ✅ 已修复
requests- HTTP请求beautifulsoup4- HTML解析pandas- 数据处理和表格输出lxml- HTML解析引擎openpyxl- Excel文件支持
安装依赖:
pip install requests beautifulsoup4 pandas lxml openpyxl- 网络连接:确保有稳定的网络连接访问Papercept网站
- 数据准确性:爬虫解析的准确性依赖于网站结构,建议人工验证重要信息
- 使用限制:请遵守网站的robots.txt和使用条款
- 关键词提取:当前版本的关键词提取功能需要进一步优化
- 问题:clean_schedule文件只有"时间段"列,没有会场信息
- 原因:优化版日程组织器在处理多页面数据时会场映射创建失败
- 解决方案:在
create_room_mapping()方法中添加后备机制,当无法自动识别会场映射时使用默认的30个会场配置 - 结果:所有clean_schedule文件现在都包含完整的会场信息和论文内容(32行×31列)
- 改进作者信息的精确提取
- 增强关键词提取功能
- 添加会场(session)信息的完整解析
- 支持更多页面的爬取
本项目仅供学习和研究使用。