使用pandas和GNU Parallel将数据并行导入MySQL

我有几千个目录,我想从中将数据导入 MySQL。我创建了一个 python 脚本,它从单个目录中读取数据并将其放入数据库。这是将数据发送到数据库的部分:


host = 'localhost'

engine = create_engine('mysql://user:pass@%s/db?charset=utf8' % host)

conn = engine.connect()

trans = conn.begin()

try:

    conn.execute('delete from tests where ml="%s"' % ml)

    tests.to_sql(con=conn, name='tests', if_exists='append', index=False)

    data.to_sql(con=conn, name='data', if_exists='append', index=False)

    trans.commit()

    print(CGRE + ml + ': OK' + CEND)

except:

    trans.rollback()

    print(CRED + ml + ': database error!' + CEND)

    raise

conn.close()

单线程执行效果很好,但速度太慢:


parallel -j 1 "[[ -d {} ]] && (cd {} && data_to_db.py) || echo {} >> ~/Data/failed_db" ::: *

现在我想启动几个进程:


parallel -j 8 .........

有时在执行过程中我会收到此错误:


sqlalchemy.exc.InternalError: (pymysql.err.InternalError) (1213, '尝试获取锁时发现死锁;尝试重新启动事务')


有没有办法增加事务的等待时间或以其他方式解决它,因为没有并行执行,导入所有数据的时间太长?


肥皂起泡泡
浏览 220回答 1
1回答
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python