问题 将具有错误编码数据的MySQL表转换为UTF-8


我有一个很棒的'MySQL 5.1数据库,由于各种愚蠢的原因,我相信,我在UTF8表中存储了编码为LATIN1的UTF8字符。真奇怪。我想解决它。

MySQL - 将UTF8表上的latin1字符转换为UTF8 问题似乎有效 - 一次一列。但我有24个表和几十列要转换。我真的在寻找能够同时转换至少一张桌子的解决方案。

作为参考,适合我的单列解决方案是:

UPDATE foo SET col1 = CONVERT(CAST(CONVERT(col1 USING latin1) AS binary) USING utf8);

对于表格,我可以这样做:

ALTER TABLE foo CONVERT TO CHARACTER SET latin1;
ALTER TABLE foo CONVERT TO CHARACTER SET binary;
ALTER TABLE foo CHARACTER SET utf8  COLLATE utf8_unicode_ci;

这让我非常接近 - 但是, CONVERT TO CHARACTER SET binary step一步将所有我的VARCHAR列转换为VARBINARY,将我的TEXT列转换为BLOB。我可以通过改变它们看起来一切都很好......但是我回到了“让我们单独修改所有列”的世界 - 在这种情况下,我可能也一样

我已经在这些SQL语句上尝试了大约50种变体,但是我找不到一个在字符数据类型中保留我的列并正确编码数据的变体。

有什么建议么?

更新: 决定只修复列而不是等待数据库或表格式解决方案,我提出:

#!/usr/bin/env ruby
require 'rubygems'
require 'mysql2'

CONNECT_OPTS = {} # whatever you want
Mysql2::Client.default_query_options.merge!(:as => :array)
conn = Mysql2::Client.new(CONNECT_OPTS)

tables = conn.query("SHOW TABLES").map {|row| row[0] }

# See http://dev.mysql.com/doc/refman/5.0/en/charset-column.html
# One might want to include enum and set columns; I don't have them
TYPES_TO_CONVERT = %w(char varchar text)
tables.each do |table|
  puts "converting #{table}"
  # Get all the columns and we'll filter for the ones we want
  columns = conn.query("DESCRIBE #{table}")
  columns_to_convert = columns.find_all {|row|
    TYPES_TO_CONVERT.include? row[1].gsub(/\(\d+\)/, '')
  }.map {|row| row[0]}
  next if columns_to_convert.empty?

  query = "UPDATE `#{table}` SET "
  query += columns_to_convert.map {|col|
    "`#{col}` = convert(cast(convert(`#{col}` using latin1) as binary) using utf8)"
  }.join ", "
  puts query
  conn.query query
end

......完成工作。有趣的是,这会在36秒内在我的数据库上运行,而不是花费13分钟的ALTER TABLE路由(并且有VARBINARY问题)或mysqldump解决方案,假设我可以让它们运行,这将花费超过20分钟。

如果有人知道一个优雅的方法可以一步完成整个数据库或表格,我仍会接受答案。


5667
2018-06-11 17:10


起源

创建一个mysqldump,比如每个表,转换它(native2ascii -reverse),可能会替换与编码相关的一些SQL并重新加载表。 - Joop Eggen
我试图用iconv或native2ascii转换mysqldump文件没有运气 - 我认为mysqldump会进行自己的角色转换。我很确定我需要转换列的内容。另外:它是一个1.5GB的数据库转储,转储和加载需要45分钟。 - Nate
我通过单个表转储将一个相同大小的数据库从Latin 1移植到UTF-8,并在两年前拆分整个转储。我alsol做了一些文本替换来改变charset。我采用这个解决方案也有备份 - 但是,是的,需要时间。 - Joop Eggen


答案:


下面这个方法看起来非常有前途,而且更加简洁,美观。你的想法是mysqldump你的整个数据库为latin1,然后导入它重新编码为utf-8。

出口:

mysqldump -u [用户] -p --opt --quote-names --skip-set-charset --default-character-set = latin1 [数据库] > dump.sql

进口:

mysql -u [用户] -p --default-character-set = utf8 [数据库] <dump.sql

我不相信这个解决方案,它完全来自 Gareth Price的博客。到目前为止,它已经为所有给他留言的人提供了帮助: “哇,你刚刚救了我的命。我没有花2个小时,但是2天” 吸引了我的注意力。

更新#1: 看起来像Gareth 不是第一个 发现这个。

更新#2: 我刚试过这个,它对我的​​UTF8-stored-as-latin1数据库工作得非常好。只需确保将数据库中的默认字符集切换为utf8 之前 导入,否则你最终会得到特殊字符所在的普通问号。当然,这可能会有很多其他后果,所以首先要测试地狱。

ALTER SCHEMA [数据库] 默认字符集utf8;

如果您有任何未设置为架构默认值的表:

更改表 [表] CHARACTER SET = DEFAULT;

(同样的想法,如果你有任何列特定的字符集设置,你将不得不做一个ALTER TABLE [表] 改变专栏 [设置] 没有指定CHARACTER SET所以它返回到表默认值)


12
2018-03-28 18:11



如果您的数据库相当小,mysqldump技巧很棒;但是,如果您的数据库很大,则需要很长时间。 - Nate
我们在我们显然不那么大的数据库(数千万条记录,几个GB转储)上运行它并且它确实没问题......花了一些时间但是几分钟,而不是几小时。 - Wick