IROS 2025 会议爬虫项目

本项目提供了多个Python爬虫脚本，用于爬取IROS 2025国际会议的日程信息，帮助研究人员安排会议行程。

项目文件说明

主要爬虫脚本

accurate_iros_crawler.py - 精确版单页面爬虫
- 成功解析889条高质量记录
- 正确解析作者和研究单位对应关系
- 提供最准确的数据结构
multi_page_crawler.py - 多页面爬虫 ✅ 推荐使用
- 爬取三个组织格式相同的网站
- 总共解析2655条记录（第1页889条，第2页894条，第3页872条）
- 分别保存为不同的文件组，命名清晰
optimized_schedule_organizer.py - 优化版日程组织器 ✅ 行程安排专用
- 按照会场地理位置组织列
- 相同地理位置的会场在同一列（如TuAT1和TuBT1都在"会场1"列）
- 按数字顺序排列会场（会场1、会场2、会场3...）
- 去除Session ID字段，界面更简洁
- 显示完整论文标题，便于复制和搜索

生成的数据文件

多页面原始数据文件 ✅ 推荐使用

iros2025_page1_schedule.xlsx/csv - 第1页数据（889条记录）
iros2025_page2_schedule.xlsx/csv - 第2页数据（894条记录）
iros2025_page3_schedule.xlsx/csv - 第3页数据（872条记录）
iros2025_combined_schedule.xlsx/csv - 合并数据（2655条记录）

优化版对齐日程表文件 ✅ 行程安排专用

iros2025_page1_clean_schedule.xlsx/csv - 第1页优化版日程表（32×31，包含完整内容）✅ 已修复
iros2025_page2_clean_schedule.xlsx/csv - 第2页优化版日程表（32×31，包含完整内容）✅ 已修复
iros2025_page3_clean_schedule.xlsx/csv - 第3页优化版日程表（32×31，包含完整内容）✅ 已修复

数据内容

爬虫生成的数据包含以下信息：

字段名	说明	数据完整性
`paper_id`	论文ID (如 TuAT1.1)	100%
`time_range`	时间安排 (如 10:30-10:35)	100%
`paper_title`	论文标题	100%
`first_author`	第一作者	99.8%
`last_author`	最后作者	99.8%
`all_authors`	所有作者列表	99.8%
`author_affiliation_pairs`	作者-单位对应关系	99.8%
`affiliations`	研究单位信息	99.8%
`keywords`	关键词	0% (需要改进)

使用方法

运行多页面爬虫 ✅ 推荐使用

# 运行多页面爬虫（爬取三个网站）
python multi_page_crawler.py

运行单页面爬虫

# 运行精确版单页面爬虫
python accurate_iros_crawler.py

组织优化版日程表

# 运行优化版日程组织器
python optimized_schedule_organizer.py

查看结果

多页面数据文件 ✅ 推荐使用

iros2025_page1_schedule.xlsx/csv - 第1页原始数据
iros2025_page2_schedule.xlsx/csv - 第2页原始数据
iros2025_page3_schedule.xlsx/csv - 第3页原始数据
iros2025_combined_schedule.xlsx/csv - 合并所有页面数据

优化版日程表文件 ✅ 行程安排专用

iros2025_page1_clean_schedule.xlsx/csv - 第1页优化版日程表
iros2025_page2_clean_schedule.xlsx/csv - 第2页优化版日程表
iros2025_page3_clean_schedule.xlsx/csv - 第3页优化版日程表

技术特点

多页面支持：支持爬取多个组织格式相同的网站
精确解析：正确解析作者和研究单位对应关系
优化显示：去除Session ID，显示完整论文标题
会场组织：按地理位置组织会场，便于行程安排
错误处理：包含网络请求异常处理和重试机制
数据清洗：自动过滤和整理数据格式
多格式输出：同时生成CSV和Excel文件
智能会场映射：自动识别会场映射关系，失败时使用默认配置 ✅ 已修复

依赖库

requests - HTTP请求
beautifulsoup4 - HTML解析
pandas - 数据处理和表格输出
lxml - HTML解析引擎
openpyxl - Excel文件支持

安装依赖：

pip install requests beautifulsoup4 pandas lxml openpyxl

注意事项

网络连接：确保有稳定的网络连接访问Papercept网站
数据准确性：爬虫解析的准确性依赖于网站结构，建议人工验证重要信息
使用限制：请遵守网站的robots.txt和使用条款
关键词提取：当前版本的关键词提取功能需要进一步优化

修复记录

2025-10-17 Bug修复

问题：clean_schedule文件只有"时间段"列，没有会场信息
原因：优化版日程组织器在处理多页面数据时会场映射创建失败
解决方案：在create_room_mapping()方法中添加后备机制，当无法自动识别会场映射时使用默认的30个会场配置
结果：所有clean_schedule文件现在都包含完整的会场信息和论文内容（32行×31列）

后续改进方向

改进作者信息的精确提取
增强关键词提取功能
添加会场(session)信息的完整解析
支持更多页面的爬取

许可证

本项目仅供学习和研究使用。

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
__pycache__		__pycache__
README.md		README.md
accurate_iros_crawler.py		accurate_iros_crawler.py
iros2025_combined_schedule.csv		iros2025_combined_schedule.csv
iros2025_combined_schedule.xlsx		iros2025_combined_schedule.xlsx
iros2025_page1_clean_schedule.csv		iros2025_page1_clean_schedule.csv
iros2025_page1_clean_schedule.xlsx		iros2025_page1_clean_schedule.xlsx
iros2025_page1_schedule.csv		iros2025_page1_schedule.csv
iros2025_page1_schedule.xlsx		iros2025_page1_schedule.xlsx
iros2025_page2_clean_schedule.csv		iros2025_page2_clean_schedule.csv
iros2025_page2_clean_schedule.xlsx		iros2025_page2_clean_schedule.xlsx
iros2025_page2_schedule.csv		iros2025_page2_schedule.csv
iros2025_page2_schedule.xlsx		iros2025_page2_schedule.xlsx
iros2025_page3_clean_schedule.csv		iros2025_page3_clean_schedule.csv
iros2025_page3_clean_schedule.xlsx		iros2025_page3_clean_schedule.xlsx
iros2025_page3_schedule.csv		iros2025_page3_schedule.csv
iros2025_page3_schedule.xlsx		iros2025_page3_schedule.xlsx
multi_page_crawler.py		multi_page_crawler.py
optimized_schedule_organizer.py		optimized_schedule_organizer.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

IROS 2025 会议爬虫项目

项目文件说明

主要爬虫脚本

生成的数据文件

多页面原始数据文件 ✅ 推荐使用

优化版对齐日程表文件 ✅ 行程安排专用

数据内容

使用方法

运行多页面爬虫 ✅ 推荐使用

运行单页面爬虫

组织优化版日程表

查看结果

多页面数据文件 ✅ 推荐使用

优化版日程表文件 ✅ 行程安排专用

技术特点

依赖库

注意事项

修复记录

2025-10-17 Bug修复

后续改进方向

许可证

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

IROS 2025 会议爬虫项目

项目文件说明

主要爬虫脚本

生成的数据文件

多页面原始数据文件 ✅ 推荐使用

优化版对齐日程表文件 ✅ 行程安排专用

数据内容

使用方法

运行多页面爬虫 ✅ 推荐使用

运行单页面爬虫

组织优化版日程表

查看结果

多页面数据文件 ✅ 推荐使用

优化版日程表文件 ✅ 行程安排专用

技术特点

依赖库

注意事项

修复记录

2025-10-17 Bug修复

后续改进方向

许可证

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages