问题 Golang正则表达式与非拉丁字符

我需要熟练的地鼠提供一些建议。

我正在解析一些句子中的单词和我的单词 \w+ regexp适用于拉丁字符。然而，它完全失败了一些西里尔字符。

这是一个示例应用程序：

package main

import (
    "fmt"
    "regexp"
)

func get_words_from(text string) []string {
    words := regexp.MustCompile("\\w+")
    return words.FindAllString(text, -1)
}

func main() {
    text := "One, two three!"
    text2 := "Раз, два три!"
    text3 := "Jedna, dva tři čtyři pět!"
    fmt.Println(get_words_from(text))
    fmt.Println(get_words_from(text2))
    fmt.Println(get_words_from(text3))
}

它产生以下结果：

 [One two three]
 []
 [Jedna dva t i ty i p t]

它返回俄语的空值和捷克语的额外音节。我不知道如何解决这个问题。有人可以给我一些建议吗？

或者也许有更好的方法将句子分成没有标点符号的单词？

9836

2018-05-27 12:42

起源

尝试 regexp.MustCompile("\\p{L}+") - Avinash Raj

答案:

该 \w 简写类只匹配ASCII字母去正则表达式因此，您需要一个Unicode字符类 \p{L}。

\w 单词字符（== [0-9A-Za-z_]）

使用字符类来包含数字和下划线：

    regexp.MustCompile("[\\p{L}\\d_]+")

输出演示：

[One two three]
[Раз два три]
[Jedna dva tři čtyři pět]

2018-05-27 12:51

哇，我明白了。只是习惯使用\ w，而我需要单词。我的错。谢谢你的帮助！ - Keir

奖金 - 如果你使用反引号，你不必双重逃避： regexp.MustCompile(`[\p{L}\d_]+`) - Nathan Osman

是的，当我不知道原始时，我发布了这个 Go中的字符串文字。 - Wiktor Stribiżew

热门问题

不使用eval / new函数的JavaScript模板库当涉及内部类时，Java继承如何工作 .NET Windows服务的奇怪问题在.ipa或.app下查找App ID 快速入门XSLT参考[关闭] 如何找出Android应用程序中未使用的资源 Ruby中并发的同步方法[重复] 将std :: chrono :: system_clock :: time_point转换为struct timeval并返回 Google Drive API V3（javascript）更新文件内容 Bootstrap 3.0 - 将元素推到底部受密码保护的.NET ClickOnce部署？如何用postgresql安装wordpress coq Set或Type如何成为命题硒滚动元素进入（中心）视图在Spring Transaction JUnit测试中自动装配Hibernate会话的正确方法 Git的Dockerfile策略如何在FOS_PICKFOLDER中使用IFileDialog，同时仍在对话框中显示文件名在Firefox扩展中复制Google Chrome浏览器操作弹出效果 CakePHP找到MAX 芹菜 - 完成任务的召唤功能从使用fmemopen创建的流中读取宽字符 .NET是否为每个程序集创建一个字符串实习池？ DefaultModelBinder不绑定嵌套模型 Navigator.MediaDevices.getUserMedia（）使用了哪些相机通信标准？选择命名空间名称时应该知道什么？ cout Swagger Codegen CLI Java客户端 - 如何正确使用它一个很好的哈希函数用于采访整数，字符串？ Maven 3 ciManagement配置的目的是什么？如何通过语言文化获取代码页？