
本教程旨在解决使用python抓取html数据并追加到pandas dataframe时,因数据列不匹配导致的“cannot set a row with mismatched columns”错误。文章提供了两种核心策略:一是通过条件判断跳过不完整的数据行;二是用`np.nan`填充缺失列,以确保数据完整性。同时,强调了通过先收集数据再一次性构建dataframe的性能优化方法,提升数据处理效率和代码健壮性。
在进行网页数据抓取(Web Scraping)时,我们经常会遇到HTML表格数据结构不一致的情况。特别是当表格中的某些行缺少部分列数据时,直接将其追加到预定义列数的Pandas DataFrame中会导致“cannot set a row with mismatched columns”错误。这种错误通常发生在尝试将一个长度不匹配的列表赋值给DataFrame的某一行时。
例如,考虑以下数据片段,其中“Albania”一行缺少2025和2025年的数据:
Country (or dependent territory) 2025 2025 2025 2025 Afghanistan 20,136 14,941 19,083 23,032 Albania 15,192 17,984 Algeria 145,656 163,138 195,060 224,107
如果我们的目标DataFrame预设了“2025”、“2025”、“2025”、“2025”这四列,当处理到“Albania”这一行时,由于其只提供了两个数据点,直接使用df.loc[length] = row_data的方式就会引发列不匹配的错误。
为了有效地处理这类问题,我们提供两种主要的策略,并结合性能优化建议。
这种方法的核心思想是,在将数据追加到DataFrame之前,先检查当前行的数据长度是否与DataFrame预期的列数完全匹配。如果不匹配,则直接跳过该行数据。这确保了DataFrame中的每一行都具有完整且一致的数据结构。
实现步骤:
示例代码:
import pandas as pd
import numpy as np # 虽然此策略未使用,但通常与Pandas一起导入
# 假设 GDP_2025 是已经抓取到的HTML行数据列表,每项是一个BeautifulSoup的Tag对象
# 模拟 GDP_2025 的结构,实际应通过 BeautifulSoup 等库解析HTML
class MockRow:
def __init__(self, data_list):
self._data = data_list
def find_all(self, tag):
return [MockTag(d) for d in self._data]
class MockTag:
def __init__(self, text):
self.text = text
def strip(self):
return self.text.strip()
GDP_2025_mock_data = [
MockRow(['Country', '2025', '2025', '2025', '2025']), # 标题行,通常跳过
MockRow(['Afghanistan', '20,136', '14,941', '19,083', '23,032']),
MockRow(['Albania', '15,192', '17,984']), # 不完整数据
MockRow(['Algeria', '145,656', '163,138', '195,060', '224,107'])
]
# 实际应用中 GDP_2025 会是 BeautifulSoup 解析后的结果,例如 soup.find_all('tr')
years = ['2025','2025','2025','2025']
expected_columns_count = len(years)
all_rows_data = [] # 用于存储所有符合条件的数据行
for row in GDP_2025_mock_data[1:]: # 跳过标题行
row_cells = row.find_all('td') # 查找行中的所有<td>标签
individual_row_data = [data.text.strip() for data in row_cells]
# 检查数据长度是否与预期列数匹配
if len(individual_row_data) == expected_columns_count:
all_rows_data.append(individual_row_data)
# 一次性创建DataFrame,效率更高
GDP = pd.DataFrame(all_rows_data, columns=years)
print("策略一:跳过不完整数据")
print(GDP)优点: 确保了DataFrame中数据的完整性和一致性,避免了NaN值的引入,简化了后续数据清洗工作。 缺点: 会丢失所有不完整的数据行,可能导致信息损失。
这种方法旨在保留所有抓取到的数据,即使它们不完整。对于那些缺少列的行,我们会用np.nan(Not a Number)来填充缺失的位置,使其长度与DataFrame的预期列数一致。
Clips AI
自动将长视频或音频内容转换为社交媒体短片
255
查看详情
实现步骤:
示例代码:
import pandas as pd
import numpy as np
# 沿用上面的 GDP_2025_mock_data
years = ['2025','2025','2025','2025']
expected_columns_count = len(years)
all_rows_data = [] # 用于存储所有处理后的数据行
for row in GDP_2025_mock_data[1:]: # 跳过标题行
row_cells = row.find_all('td')
individual_row_data = [data.text.strip() for data in row_cells]
# 计算需要填充的NaN数量
missing_columns_count = expected_columns_count - len(individual_row_data)
if missing_columns_count > 0:
# 用 np.nan 填充缺失的列
individual_row_data.extend([np.nan] * missing_columns_count)
all_rows_data.append(individual_row_data)
# 一次性创建DataFrame
GDP = pd.DataFrame(all_rows_data, columns=years)
print("\n策略二:用缺失值填充不完整数据")
print(GDP)优点: 保留了所有可用的数据,避免了信息丢失。np.nan是Pandas处理缺失值的标准方式,便于后续的数据清洗和分析。
缺点: 引入了np.nan值,后续可能需要进行缺失值处理(如填充、删除等)。此方法默认缺失的列位于行尾,如果缺失发生在中间,则需要更复杂的逻辑来匹配数据到正确的列
。
无论是采用哪种策略,都强烈建议避免在循环中反复使用DataFrame.append()或DataFrame.loc来逐行添加数据。Pandas DataFrame的每次追加操作都会创建一个新的DataFrame,这在处理大量数据时会造成显著的性能开销。
推荐的做法是:
上述两种策略的示例代码都已采纳了这种优化方法,通过all_rows_data.append(individual_row_data)收集数据,最后通过pd.DataFrame(all_rows_data, columns=years)一次性构建DataFrame。这种方法能够显著提升数据处理的效率,尤其是在处理大型数据集时。
在从HTML表格抓取数据并构建Pandas DataFrame时,处理因数据不一致导致的列不匹配错误是常见的挑战。通过采纳“跳过不完整数据”或“用缺失值填充”这两种策略,并结合“先收集数据再一次性构建DataFrame”的性能优化实践,我们可以有效地解决这些问题,确保数据处理流程的顺畅和高效。选择哪种策略取决于具体的数据分析需求:如果完整性是首要考量,则选择跳过;如果最大化数据保留是目标,则选择填充缺失值。
以上就是解决Pandas数据追加中的列不匹配错误:HTML抓取数据处理教程的详细内容,更多请关注其它相关文章!
相关文章:
C++ explicit关键字防止隐式转换_C++构造函数安全规范
MongoDB聚合管道:正确匹配对象数组中_id的方法
PS5 Pro有点优势但不多! 《燕云十六声》PS5平台与PC性能画面对比
DLsite中文平台入口 DLsite官网内容在线查看
Golang如何使用bytes.Split分割字节切片_Golang bytes切片分割方法
J*a TimerTask文件监控:HashMap状态管理与常见陷阱规避指南
React Router v6 教程:构建认证保护的私有路由与重定向策略
构建轻量级网站内部消息系统:Formspree 集成指南
在Typer应用中优雅地处理和重组任意命令行参数
知乎APP怎么管理已购盐选内容_知乎APP盐选内容购买记录与查看方法
火锅吃太多会怎样 火锅吃太多会上火吗
在Qt QML中通过Python字典动态更新TextEdit内容的教程
Yii2模块参数配置指南:正确声明与访问模块级配置
TikTok国际版网页端快速入口 TikTok全球版短视频浏览教程
J*aScript中高效清空DOM列表元素:解决for循环中断与任务管理问题
微博网页版主页入口 微博官方网站免登录访问
京东单号查询入口_京东快递订单追踪入口
sublime怎么设置启动时打开的窗口_sublime会话管理与热退出
打开就能玩的植物大战僵尸 植物大战僵尸网页版传送门
2026春节假期时间安排 2026春节假日查询
Lar*el开发:如何在编辑界面正确预选数据库中的多选标签
在哪找SublimeJ远程工具_SFTP插件配置教程
C++如何实现一个智能指针_手动实现C++ shared_ptr的引用计数功能
WordPress插件开发:正确注册卸载钩子与避免常见陷阱
Golang如何实现容器化日志收集与分析_Golang容器日志收集分析方法
解决深度学习模型训练初期异常高损失与完美验证准确率问题
自定义 WooCommerce 购物车:始终显示全部交叉销售商品
2026年发布! 美少女养成动作RPG《神剑少女战记》发布实机演示
抖音网页版企业服务中心登录入口_抖音网页版企业登录平台
sublime侧边栏怎么增强功能_SideBarEnhancements for sublime安装与配置
sublime如何配置Go语言开发环境_sublime搭建Golang编译运行系统
win11 arm版怎么安装 M1/M2 Mac虚拟机安装ARM win11的方法
PySpark中高效提取字符串右侧可变长度数字:使用regexp_extract
c++如何实现一个简单的软件渲染器_c++从零开始的3D图形学
腾讯视频怎么使用多账号家庭管理_腾讯视频家庭多账号统一管理与权限分配教程
《北京人工智能产业白皮书(2025)》发布:全年核心产值预计突破 4500 亿元
windows10怎么关闭系统提示音_windows10彻底静音设置方法
期待已久:小米17 Ultra、小米首款NAS本月登场
魅族20怎样在浏览器开无图省流_iPhone魅族20浏览器开无图省流【流量节省】
Composer中的^和~符号代表什么_精通Composer版本号语义化约束
三星GalaxyZFold5怎样在相册制作折叠屏分镜_iPhone三星GalaxyZFold5相册制作折叠屏分镜【创意编辑】
c++ 命名空间怎么用 c++ namespace使用指南
蓝湖怎样用切图标注提对接效率_蓝湖用切图标注提对接效率【设计对接】
PDF怎么合并PDF并保持格式_PDF合并文件保持排版教程
mysql通配符支持数字匹配吗_mysql通配符能否用于数字匹配的解析
在VS Code中配置和运行Dart程序的完整步骤
J*aScript中赋值与自增运算符的复杂交互与执行机制
初次安装JDK时环境变量如何正确配置_J*A_HOME与PATH设置规则讲解
126邮箱手机版登录官网2026_126手机邮箱免费入口最新
QQ邮箱电脑版登录入口_QQ邮箱官方网站登录平台