功能建议:函数(function)去除发音符号

jrencz
创建于
2016-07-20 11:05:33

我建议函数(function)应该比_.deburr多一点-它应该用它们的Latin1对应字符(ą->;a)替换所有非latin1字符,并删除那些根本没有对应字符的字符。

latin1中有_.deburr处理的补充字符以外的字符,在某些用例中可能需要删除这些字符。

我的用例:latin1波兰语中的扩展发音字符。我希望可靠地比较信用卡上的姓名(没有发音符号)和用户定义的姓名(可能有发音符号)。

我的意思是介于现在的_.deburrFGRibreau/node-unidecode之间的一些东西,这是一种过火的做法,特别是对于front-end用例。
#1430可能相关。

6条回答
jdalton
回复于
2016-07-20 13:56:58
#1

谢谢@jrencz

#1430的Dup。

ashclarke
回复于
2016-08-04 12:26:19
#2

我最近还遇到了对čů这样的字符进行去除毛刺的需求,但我不知道它们属于哪个字符集。

jdalton
回复于
2016-08-04 13:57:41
#3

只是为了确认@jrencz,波兰语中的发音符号字符包含在latin1 extended?

jrencz
回复于
2016-08-04 14:52:06
#4

@jdalton大多数不是拉丁文1(它们在拉丁文extended-A中)

  • ĄU+0104
  • ąU+0105
  • ĆU+010A
  • ćU+010B
  • ĘU+0118
  • ęU+0119
  • ŁU+0141
  • łU+0142
  • ŃU+0143
  • ńU+0144
  • ŚU+015A
  • śU+015B
  • ŹU+0179
  • źU+017A
  • ŻU+017B
  • żU+017C

  • ÓU+00D3
  • óU+00F3

在Latin1。

所以是的:所有波兰语发音符号都被拉丁语+拉丁语Extended-A.涵盖

jdalton
回复于
2016-08-04 16:17:26
#5

酷毙了。我认为加入extended-A是合理和可行的。已修补ed206e5

回复于
2019-01-18 17:22:09
#6

此线程已自动锁定,因为在它关闭后没有任何最近的活动。请为相关错误打开一个新的issue。

当前位于第1页,总计6条回复

基本信息

  • 回复数:329
  • 讨论框架:lodash
  • 原始内容:查看信息
  • 最后更新于:2020-10-23