Skip to content

StvLi/IROS_2025_ReportSchedule

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

IROS 2025 会议爬虫项目

本项目提供了多个Python爬虫脚本,用于爬取IROS 2025国际会议的日程信息,帮助研究人员安排会议行程。

项目文件说明

主要爬虫脚本

  1. accurate_iros_crawler.py - 精确版单页面爬虫

    • 成功解析889条高质量记录
    • 正确解析作者和研究单位对应关系
    • 提供最准确的数据结构
  2. multi_page_crawler.py - 多页面爬虫 ✅ 推荐使用

    • 爬取三个组织格式相同的网站
    • 总共解析2655条记录(第1页889条,第2页894条,第3页872条)
    • 分别保存为不同的文件组,命名清晰
  3. optimized_schedule_organizer.py - 优化版日程组织器 ✅ 行程安排专用

    • 按照会场地理位置组织列
    • 相同地理位置的会场在同一列(如TuAT1和TuBT1都在"会场1"列)
    • 按数字顺序排列会场(会场1、会场2、会场3...)
    • 去除Session ID字段,界面更简洁
    • 显示完整论文标题,便于复制和搜索

生成的数据文件

多页面原始数据文件 ✅ 推荐使用

  • iros2025_page1_schedule.xlsx/csv - 第1页数据(889条记录)
  • iros2025_page2_schedule.xlsx/csv - 第2页数据(894条记录)
  • iros2025_page3_schedule.xlsx/csv - 第3页数据(872条记录)
  • iros2025_combined_schedule.xlsx/csv - 合并数据(2655条记录)

优化版对齐日程表文件 ✅ 行程安排专用

  • iros2025_page1_clean_schedule.xlsx/csv - 第1页优化版日程表(32×31,包含完整内容)✅ 已修复
  • iros2025_page2_clean_schedule.xlsx/csv - 第2页优化版日程表(32×31,包含完整内容)✅ 已修复
  • iros2025_page3_clean_schedule.xlsx/csv - 第3页优化版日程表(32×31,包含完整内容)✅ 已修复

数据内容

爬虫生成的数据包含以下信息:

字段名 说明 数据完整性
paper_id 论文ID (如 TuAT1.1) 100%
time_range 时间安排 (如 10:30-10:35) 100%
paper_title 论文标题 100%
first_author 第一作者 99.8%
last_author 最后作者 99.8%
all_authors 所有作者列表 99.8%
author_affiliation_pairs 作者-单位对应关系 99.8%
affiliations 研究单位信息 99.8%
keywords 关键词 0% (需要改进)

使用方法

运行多页面爬虫 ✅ 推荐使用

# 运行多页面爬虫(爬取三个网站)
python multi_page_crawler.py

运行单页面爬虫

# 运行精确版单页面爬虫
python accurate_iros_crawler.py

组织优化版日程表

# 运行优化版日程组织器
python optimized_schedule_organizer.py

查看结果

多页面数据文件 ✅ 推荐使用

  • iros2025_page1_schedule.xlsx/csv - 第1页原始数据
  • iros2025_page2_schedule.xlsx/csv - 第2页原始数据
  • iros2025_page3_schedule.xlsx/csv - 第3页原始数据
  • iros2025_combined_schedule.xlsx/csv - 合并所有页面数据

优化版日程表文件 ✅ 行程安排专用

  • iros2025_page1_clean_schedule.xlsx/csv - 第1页优化版日程表
  • iros2025_page2_clean_schedule.xlsx/csv - 第2页优化版日程表
  • iros2025_page3_clean_schedule.xlsx/csv - 第3页优化版日程表

技术特点

  1. 多页面支持:支持爬取多个组织格式相同的网站
  2. 精确解析:正确解析作者和研究单位对应关系
  3. 优化显示:去除Session ID,显示完整论文标题
  4. 会场组织:按地理位置组织会场,便于行程安排
  5. 错误处理:包含网络请求异常处理和重试机制
  6. 数据清洗:自动过滤和整理数据格式
  7. 多格式输出:同时生成CSV和Excel文件
  8. 智能会场映射:自动识别会场映射关系,失败时使用默认配置 ✅ 已修复

依赖库

  • requests - HTTP请求
  • beautifulsoup4 - HTML解析
  • pandas - 数据处理和表格输出
  • lxml - HTML解析引擎
  • openpyxl - Excel文件支持

安装依赖:

pip install requests beautifulsoup4 pandas lxml openpyxl

注意事项

  1. 网络连接:确保有稳定的网络连接访问Papercept网站
  2. 数据准确性:爬虫解析的准确性依赖于网站结构,建议人工验证重要信息
  3. 使用限制:请遵守网站的robots.txt和使用条款
  4. 关键词提取:当前版本的关键词提取功能需要进一步优化

修复记录

2025-10-17 Bug修复

  • 问题:clean_schedule文件只有"时间段"列,没有会场信息
  • 原因:优化版日程组织器在处理多页面数据时会场映射创建失败
  • 解决方案:在create_room_mapping()方法中添加后备机制,当无法自动识别会场映射时使用默认的30个会场配置
  • 结果:所有clean_schedule文件现在都包含完整的会场信息和论文内容(32行×31列)

后续改进方向

  1. 改进作者信息的精确提取
  2. 增强关键词提取功能
  3. 添加会场(session)信息的完整解析
  4. 支持更多页面的爬取

许可证

本项目仅供学习和研究使用。

About

IROS2025会表

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages