开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

pandas to_sql()错误-超出了预准备语句的内存限制，即每个会话20 MB

pandas.to_sql() 方法在将 DataFrame 写入 SQL 数据库时，可能会遇到“超出了预准备语句的内存限制”的错误。这个错误通常是由于数据库对单个预处理语句的大小有限制，而 DataFrame 中的数据量过大导致的。

基础概念

预处理语句（Prepared Statements）是一种在数据库中预编译的 SQL 语句，它可以提高执行效率并防止 SQL 注入攻击。但是，数据库对预处理语句的大小有一定的限制，通常是出于性能和安全性的考虑。

相关优势

性能提升：预处理语句可以被数据库缓存，多次执行时无需重新编译。
安全性：通过参数化查询，可以有效防止 SQL 注入攻击。

类型与应用场景

类型：内存限制错误通常出现在关系型数据库中，如 PostgreSQL、MySQL 等。
应用场景：当使用 pandas 处理大型数据集并将其写入数据库时，可能会遇到此类问题。

解决方法

以下是几种解决这个问题的方法：

1. 分批次插入数据

将 DataFrame 分成多个小块，然后逐个插入数据库。

import pandas as pd
from sqlalchemy import create_engine

engine = create_engine('your_database_connection_string')
df = pd.read_csv('your_large_dataset.csv')

# 分批次插入数据
batch_size = 10000  # 根据实际情况调整批次大小
for i in range(0, len(df), batch_size):
    df[i:i+batch_size].to_sql('your_table_name', engine, if_exists='append', index=False)

2. 使用 `executemany`

直接使用 SQLAlchemy 的 executemany 方法进行批量插入。

from sqlalchemy import Table, MetaData, insert

metadata = MetaData(bind=engine)
table = Table('your_table_name', metadata, autoload=True)

# 分批次插入数据
batch_size = 10000
for i in range(0, len(df), batch_size):
    stmt = insert(table).values(df[i:i+batch_size].to_dict(orient='records'))
    with engine.connect() as conn:
        conn.execute(stmt)

3. 调整数据库配置

如果可能，可以尝试调整数据库的配置，增加预处理语句的内存限制。但这通常需要数据库管理员权限，并且可能会影响数据库的整体性能。

4. 使用临时表

先将数据写入一个临时表，然后再从临时表转移到目标表。

# 创建临时表
temp_table_name = 'temp_your_table_name'
df.to_sql(temp_table_name, engine, if_exists='replace', index=False)

# 将数据从临时表转移到目标表
with engine.connect() as conn:
    conn.execute(f'INSERT INTO your_table_name SELECT * FROM {temp_table_name}')
    conn.execute(f'DROP TABLE {temp_table_name}')

总结

当使用 pandas.to_sql() 遇到内存限制错误时，可以通过分批次插入数据、使用 executemany、调整数据库配置或使用临时表等方法来解决。选择哪种方法取决于具体的应用场景和需求。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

pymysql ︱mysql的基本操作与dbutils+PooledDB使用

-写入 2.3 常规-批量写入 2.4 常规-更新 2.5 常规-删除 2.6 pandas写回——to_sql 2.6.0 sqlalchemy的格式 2.7 pandas 读出——read_sql...2.8 SQL + pandas 来创建表结构 2.9 更新时间格式 2.10 to_sql 和常规insert的优劣势 3 其他基础设置 3.1 更新注释 3.2 批量修改字符串类型 3.3 查看表名...cursor = conn.cursor() 1.2 pandas连接参考：利用pandas的to_sql将数据插入MySQL数据库和所踩过的坑 from sqlalchemy import create_engine...#提交 db.commit() except Exception as e: #错误回滚 db.rollback() finally: db.close() 2.6 pandas写回——to_sql...**匹配单个任意字符，它常用来限制表达式的字符长度语句：（可以代表一个中文字符） select * from user where username like '_'; select * from

4.9K3 0

有比Pandas 更好的替代吗?对比Vaex, Dask, PySpark, Modin 和Julia

Pandas是一种方便的表格数据处理器，提供了用于加载，处理数据集并将其导出为多种输出格式的多种方法。Pandas可以处理大量数据，但受到PC内存的限制。数据科学有一个黄金法则。...Dask仅提供一种方法，即set_index。按定义索引排序。我们的想法是使用Dask来完成繁重的工作，然后将缩减后的更小数据集移动到pandas上进行最后的处理。这就引出了第二个警告。...首先，必须初始化Spark会话。然后使用python API准备步骤，也可以使用Spark SQL编写SQL代码直接操作。 ?...有一些情况，modin提示：“not supported, defaulting to pandas”，然后该操作终崩溃了，只剩下4个python进程，每个进程都占用大量内存。...即使Julia没有进入前20名最流行的编程语言，我想它还是有前途的，如果你关注它的开发，你就不会犯错误。

4.8K1 0

PostgreSQL集群篇——PostgreSQL的配置文件解析

# (需要重启生效) temp_buffers = 8MB # 设置每个数据库会话使用的临时缓冲区的最大数目。这些都是会话的本地缓冲区，只用于访问临时表。...该值默认为四兆字节（4MB) # 注意对于一个复杂查询，可能会并行运行好几个排序或者哈希操作；每个操作都会被允许使用这个参数指定的内存量，然后才会开始写数据到临时文件...# 默认值是ERROR，它表示导致错误、日志消息、致命错误或恐慌错误的语句将被记录在日志中。 # 要有效地关闭记录失败语句，将这个参数设置为PANIC。...默认值为20毫秒。 #autovacuum_vacuum_cost_limit = -1 # 指定用于自动VACUUM操作中的代价限制值。...# 默认情况下，这个值被设置为假，这样只有 FATAL 错误（致命）将中止会话。

3.7K4 0

一条SQL语句提交后，db2都做了什么？

每当某个堆超出了其配置的大小时，便可以使用溢出缓冲区来满足实例共享内存区内任何堆的峰值需求。在这种情况下，个别堆的设置是软限制的，它们可以在内存使用的峰值期间进一步增长。...这时，对实例内存就施加了一个硬性的限制，而不是软限制。当达到这个限制时，就会收到内存分配错误。出于这个原因，建议将 INSTANCE_MEMORY 的设置保留为 AUTOMATIC。...这是对共享排序在任何时刻可以消耗的内存总量在数据库范围内的硬限制。当达到这个限制时，请求排序的应用程序将收到错误 SQL0955 (rc2)。...当代理变成闲置代理时，它仍然保留了其代理的私有内存。这样设计是为了提高性能，因为当代理被再次调用时，它便有准备好的私有内存。...它的默认值是 8 388 608 字节。这意味着每个闲置代理可以保留最多 8MB 的私有内存。如果有 100 个闲置代理，那么这些代理将保留 800MB 的内存，因此它们很快就会耗尽 RAM。

1K2 0

【DB笔试面试528】在Oracle中，如何解决ORA-04030和ORA-04031错误？

许多操作系统会对单个进程能够获取的内存量加以限制，以便自我保护。在大部分情况下，发生ORA-04030错误的进程并非总是内存损耗的元凶，错误的发生仅仅是因为此进程无法取得所需的内存造成的。...如果在root的ulimit限制中data(kbytes)的限制为1310kb，那么表示每个通过监听连接的进程能分配的内存资源不能超过1310kb。 ③　是否设置了Oracle限制？...以下查询用于查找分配给所有会话的PGA区的内存总量： SELECT SUM(VALUE) / 1024 / 1024 PGA_SIZE_MB FROM V$SESSTAT S, V$STATNAME...ORA-04031错误信息会指出哪个池出了问题。如果错误指出问题不在共享池中，那么这通常意味着对应用环境来说，出问题的池配置的太小了。可以将出问题的池增大，然后继续观察后续的问题。...的值为1.26G（4.2*0.6*0.5），可以分配2个子池，每个子池为630MB。

2.1K3 1

从零开始学PostgreSQL (二)：配置文件

#work_mem = 4MB # 每个工作进程可用的内存大小，最小为 64kB #hash_mem_multiplier = 2.0...# 哈希表工作内存的倍数，范围为 1 到 1000.0 #maintenance_work_mem = 64MB # 维护操作使用的内存大小，最小为 1MB #autovacuum_work_mem...# 0 表示禁用清理缓冲区访问策略；磁盘 #temp_file_limit = -1 # 每个进程临时文件空间限制，单位为千字节，-1 表示无限制基于成本的清理延迟...，将绑定参数值限制为 N 字节；-1 表示完整打印，0 禁用 #log_parameter_max_length_on_error = 0 # 记录错误时，将绑定参数值限制为 N 字节；-1 表示完整打印...= warning # 报告 ICU 区域设置验证错误的级别错误处理 #exit_on_error = off # 在任何错误时终止会话？

4071 0

深入解析：Oracle进程的内存消耗与优化策略

在专用服务器模式下，每个用户会话有一个对应的进程；在共享服务器模式下，共享服务器进程服务于多个用户会话。Oracle进程的内存结构一个 Oracle 进程消耗的内存主要分为以下几部分：1....每个 Oracle 进程需要使用 SGA 中的一些内存资源，例如：Shared Pool：存放解析过的 SQL 语句和 PL/SQL 程序。...平均内存消耗：20 MB 至 300 MB。内存使用影响因素数据库参数设置PGA_AGGREGATE_TARGET：影响用户进程的 PGA 使用。...共享服务器模式下，内存消耗随会话数量增加较慢。操作系统限制每个进程的内存使用可能受操作系统的限制，例如 ulimit 配置。...用户进程（共享服务器模式）：20 MB 至 300 MB。实际内存消耗需要结合任务复杂度、连接数、数据库参数配置以及操作系统限制进行分析和优化。

1502 1

ChatGPT入门：解锁聊天机器人、虚拟助手和NLP的强大功能

包括定义模型架构、为训练准备数据、设置超参数以及使用深度学习库训练模型。评估ChatGPT模型：在训练模型之后，我们需要评估其性能。...理解限制：了解模型限制，并对性能设置适当期望 API的方法和功能响应分类成功响应错误响应：客户端错误一般是400-499的状态代码请求。...Adam优化，随机梯度下降，批归一化硬件和软件优化实现分布式训练，GPU加速，高效利用内存，使用优化的软件库评估指标使用困惑度，Bleu分数，进行人工评估数据准备确保用于训练模型的数据具有高质量...高效利用内存: 高效利用内存可以通过减少等待数据加载到内存的时间来显著提高模型的性能。...数据集：选择数据、清洗数据、预处理数据、模型微调：学习权重和偏差、超参数调整（学习率、批量大小、训练周期数）扩展 ChatGPT 多任务学习迁移学习生成预训练：以无监督方式预训练语言模型生成文本的过程

5593 0

POSTGRESQL MYSQL MONGODB 配置文件总结(感谢我的三个DBA)

4兆字节（4MB#开始将数据写入临时文件之前,将允许每个操作使用此值指定的内存量。...同样，几个正在运行的会话可能会同时进行此类操作。因此，使用的总内存可能是work_mem的许多倍；选择值时必须牢记这一事实。排序操作用于ORDER BY，DISTINCT和合并联接。...，则记录每个完成语句的持续时间。...(即同时运行WAL sender进程的最大数量)。...， #定义一次可打开的innodb文件数（每个表）的软限制（与innodb_open_files取最大值） table_open_cache_instances = 64 #打开表缓存实例的数量 #每个表缓存实例大小

7692 0

在Oracle中，内存结构主要由什么组成?

l 私有SQL区（Private SQL Area）：包含当前会话的绑定信息以及运行时内存结构。每个发出SQL语句的会话，都有一个Private SQL Area。...Buffer Cache中的内存块有4种状态： ①　Pinned：当前块正在被某个进程读取到Cache或正写到磁盘，即当前正在被访问的数据块，可防止多个会话同时对同一数据块进行写操作。...（一）PGA介绍 PGA（Program Global Area，程序全局区）是单个Oracle进程使用的内存区域，为每个连接到Oracle数据库的用户进程保留的内存，不属于实例的内存结构。...默认为启用PGA的自动管理，Oracle根据SGA的20%来动态调整PGA中专用于Work Area部分的内存大小，最小为10MB。...Oracle分配内存的单位是granule，即粒度。

5891 0

【DB笔试面试527】在Oracle中，内存结构主要由什么组成?

l 私有SQL区（Private SQL Area）：包含当前会话的绑定信息以及运行时内存结构。每个发出SQL语句的会话，都有一个Private SQL Area。...Buffer Cache中的内存块有4种状态： ①　Pinned：当前块正在被某个进程读取到Cache或正写到磁盘，即当前正在被访问的数据块，可防止多个会话同时对同一数据块进行写操作。...（一）PGA介绍 PGA（Program Global Area，程序全局区）是单个Oracle进程使用的内存区域，为每个连接到Oracle数据库的用户进程保留的内存，不属于实例的内存结构。...默认为启用PGA的自动管理，Oracle根据SGA的20%来动态调整PGA中专用于Work Area部分的内存大小，最小为10MB。...Oracle分配内存的单位是granule，即粒度。

1K1 0

GreenPlum的数据库性能

每个操作符是一个单独的执行线程并且被分配语句总体内存的一部分，最少100KB。如果计划有大量的操作符，操作符所要求的最小内存也可能超过可用内存并且查询将会被一个内存不足错误拒绝。...资源队列名称活动语句内存限制每个查询的内存 ETL 3 2GB 667MB 报表 7 3GB 429MB 行政 1 1.4GB 1.4GB 分配给队列的总内存是6.4GB或者gp_vmem_protect_limit...例如，如果一个队列的内存限制是2000MB而活动语句限制是10，每个通过该队列提交的查询会默认拿到200MB内存。...默认的资源队列pg_default的活动语句限制是20、没有内存限制和中等的优先权设置。为各种类型的负载创建资源队列。...step 6.查看活动语句的优先权 gp_toolkit管理方案有一个名为gp_resq_priority_statement的视图，它列出了当前正在被执行的语句并且提供优先权、会话ID和其他信息。

5304 0

MySQL8.0.30 release note 中文翻译（详细版）

此处列出了新的排序规则： Norwegian (Bokmål) utf8mb4_nb_0900_ai_ci (Bokmål) utf8mb4_nb_0900_as_cs (...SQL语法说明现在可以确定无法执行的REVOKE语句是否会引发错误或警告。这是通过增加两个新的语句选项来实现的，这里列出了简单的描述。...(Bug #32725063) InnoDB：在Widows 32位系统上的4GB表空间文件大小限制已经被移除。该限制是由于在扩展表空间时进行了错误的计算。...(Bug #33835934) 带有子查询的准备语句没有访问任何表，但子查询的评估引发了一个错误，在调试构建中触发了断言失败。(Bug #33773799) 一些存储函数在第一次调用后没有被正确执行。...当语句在执行过程中需要重新准备时--例如，当指定的值的符号性与实际的数据类型不一致时，参数没有被正确克隆，导致错误。出现这种情况是因为为参数指定的值被用来打印用于重新解析的字符串，而不是一个字面的?

2K1 0

用于时间序列预测的AutoML

在推理过程中，没有足够的计算时间来优化此超参数（即，将其视为数值或分类），因此将它们全部都视为数值。验证和基准模型生成新功能后，将对基线模型进行训练。基准模型使用所有初始和创建的功能。...超参数优化超参数优化的步骤在推理过程中，花很少的时间进行超参数优化，因此决定将所有可能的超参数组合缩小到最有前途的组合，即：处理类别变量：将类别特征视为pandas类别类型，让LightGBM头痛不已...首先对每组参数进行验证，如果新的验证评分更好，则重新安装模型。在选择了最佳的管道超参数集之后，模型开始特征选择：使用最重要的特征（“获得”重要性）的前5％，10％，20％等对模型进行重新拟合。...结果为这个项目付出了很多努力，而奋斗得到了回报。在公共排行榜中排名第三，在私人排行榜中排名第一。比赛的私人排行榜总结经验在比赛中，遇到了很多错误，这浪费了时间和精力。...在这场比赛中，朝着更干净，更有条理的代码迈出了一大步。请勿在pandas中使用就地操作，因为它有故障。只是尽可能不要使用它。

1.9K2 0

查看死锁

MODULE_HASH NUMBER MODULE列展示的模块名称的哈希值 SERIALIZABLE_ABORTS NUMBER 每个游标事务序列化失败并产生ORA-08177错误的次数 CPU_TIME...它提供内存中、已解析并准备执行的SQL语句的统计信息。...STATUS 会话状态：ACTIVE-会话当前正在执行SQL，INACTIVE-处于非活动状态且没有配置限制或尚未超过配置的限制的会话。KILLED-标记为被终止的会话。...CACHED-为Oracle XA临时缓存的会话。SNIPED-超出某些配置限制(例如，为资源管理器消费者组指定的资源限制或用户配置文件中指定的idle_time)的非活动会话。...如果会话不在等待中，则为会话最近等待的资源或事件。查阅: "Oracle Wait Events" V$LOCKED_OBJECT V$LOCKED_OBECT列出了系统上每个事务获取的所有锁。

2.1K5 0

serverStatus详解

对于更新和删除命令，由于只有单个文档操作可以重试，因此每个语句都有一个写入。对于插入操作，插入的每批文档有一次写入，除非失败导致每个文档单独插入。...数据库的映射内存量（以兆字节（MB）为单位）。由于MongoDB使用内存映射文件，因此该值可能大致等于数据库或数据库的总大小。...映射内存量，以兆字节（MB）为单位，包括用于journaling的内存。该值始终是值的两倍 mem.mapped。仅在启用 journaling 功能时才包含此字段。...有关复制过程的预读阶段的详细信息，请参阅多线程复制。 metrics.repl.preload.docs：报告在预读阶段加载到内存中的文档的文档。...metrics.repl.preload.indexes：在复制预读阶段报告加载到内存中的索引项的文档。有关预取复制阶段的详细信息，请参阅多线程复制。

2.9K3 0

PRM 与 HRM 双剑合璧 | 增量式 Vision Transformer 的参数有效跨任务提示！

最近庞大的预训练模型（PTMs）通过提示技术在实际的IL中取得了卓越的性能，无需旧样本（无需复习）并且在内存受限（内存受限）的情况下：提示扩展和提示固定方法。...最近，基于排练的方法可以通过在固定内存缓冲区中保留一些旧任务的代表性样本（即示例）有效地减轻IL中的遗忘。...提出了参数高效微调（PEFTs）技术，例如提示，以解决此问题，目的是指导PTM有条件地执行，例如视觉提示调优（VPT）[7]。因此，给定一个冻结的预训练VIT模型和一个可学习参数集，即提示。...如图1(b)所示，在推理过程中，作者计算了每个会话期间的提示选择平均准确度。随着推理会话的前进，准确度明显下降，导致性能不佳。...作者的PECTP基于ADAM-VPT-Deep，并使用[5]中相同的超参数（例如，学习率、周期、权重衰减、提示的数量）。作者使用在ImageNet21K上预训练的PTM VIT-B/16-IN21K。

1391 0

HAWQ技术解析（十三） —— 资源管理

为了缓解NameNode的负载，使用下面的服务器配置参数限制V的大小，即每个节点启动的最大虚拟段数。...示例中设置为0.2，即20%。...下面的语句在pg_root下创建一个名为myqueue的资源队列，限制活跃查询数为20，内存和CPU核数最多为集群总量的10%： db1=# create resource queue myqueue...segmem 每个虚拟段内存限额（MB）。 segcore 每个虚拟段的CPU虚拟核数限额。 segsize 资源队列能够为执行查询分配的虚拟段数。...ALLOC 会话相关信息，如请求的资源、会话级资源限制、语句级资源设置、按查询计划分片数估计的工作量等等。 LOC 查询扫描HDFS的数据本地化信息。 RESOURCE 已经分配的资源信息。

1.2K5 0

MySQL5.7应当注意的参数

max_connections 该参数指定 MySQL 的最大连接数，是全局变量可动态修改默认为151。建议设置大些防止出现连接数用满的错误。...典型值为5-6GB（8GB RAM），20-25GB（32GB RAM），100-120GB（128GB RAM），在一个独立使用的数据库服务器上,你可以设置这个变量到服务器物理内存大小的80%。...此参数应设置为系统每秒大约可执行的IO操作数即系统的IOPS。该值取决于你的系统配置。...其他相关参数除了上面列举的参数还有些其他参数需要注意，篇幅关系我将其汇总如下： #禁用所有DNS解析建议开启唯一的限制是GRANT语句必须仅使用IP地址skip_name_resolve =...，给出了相关参数的默认值及是否可动态修改。

8112 0

戳破 | hive on spark 调优点

配置内存对于内存，预留20GB给操作系统，datanode，nodemanager，剩余100GB作为yarn资源。...建议 spark.executor.memoryOverhead站总内存的 15%-20%。...spark.driver.memoryOverhead 每个driver能从yarn申请的堆外内存的大小。...只有在请求的executor准备就绪时，作业才会开始运行。这样，在reduce那一侧不会减少短会话的并行性。要启用预热功能，请在发出查询之前将hive.prewarm.enabled设置为true。...预热的executor的实际数量受spark.executor.instances（静态分配）或spark.dynamicAllocation.maxExecutors（动态分配）的值限制。

1.9K3 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭