问题 Solr Composite来自模式中现有字段的唯一键


我有一个名为的索引 LocationIndex 在solr中的字段如下:

<fields>
    <field name="solr_id" type="string" stored="true" required="true" indexed="true"/>
    <field name="solr_ver" type="string" stored="true" required="true" indexed="true" default="0000"/>
    // and some more fields
</fields>
<uniqueKey>solr_id</uniqueKey>

但是现在我想要更改模式,以便唯一键必须是两个已经存在的字段的组合 solr_id 和 solr_ver......如下:

<fields>
    <field name="solr_id" type="string" stored="true" required="true" indexed="true"/>
    <field name="solr_ver" type="string" stored="true" required="true" indexed="true" default="0000"/>
    <field name="composite-id" type="string" stored="true" required="true" indexed="true"/>
    // and some more fields
</fields>
<uniqueKey>solr_ver-solr_id</uniqueKey>

搜索后我发现可以通过在schema中添加以下内容:(ref: Solr Composite来自模式中现有字段的唯一键

<updateRequestProcessorChain name="composite-id">
  <processor class="solr.CloneFieldUpdateProcessorFactory">
    <str name="source">docid_s</str>
    <str name="source">userid_s</str>
    <str name="dest">id</str>
  </processor>
  <processor class="solr.ConcatFieldUpdateProcessorFactory">
    <str name="fieldName">id</str>
    <str name="delimiter">--</str>
  </processor>
  <processor class="solr.LogUpdateProcessorFactory" />
  <processor class="solr.RunUpdateProcessorFactory" />
</updateRequestProcessorChain>

所以我改变了架构,最后它看起来像:

<updateRequestProcessorChain name="composite-id">
  <processor class="solr.CloneFieldUpdateProcessorFactory">
    <str name="source">solr_ver</str>
    <str name="source">solr_id</str>
    <str name="dest">id</str>
  </processor>
  <processor class="solr.ConcatFieldUpdateProcessorFactory">
    <str name="fieldName">id</str>
    <str name="delimiter">-</str>
  </processor>
  <processor class="solr.LogUpdateProcessorFactory" />
  <processor class="solr.RunUpdateProcessorFactory" />
</updateRequestProcessorChain>

<fields>
    <field name="solr_id" type="string" stored="true" required="true" indexed="true"/>
    <field name="solr_ver" type="string" stored="true" required="true" indexed="true" default="0000"/>
    <field name="id" type="string" stored="true" required="true" indexed="true"/>
    // and some more fields
</fields>
<uniqueKey>id</uniqueKey>

但是在添加文档时它会给我错误:

org.apache.solr.client.solrj.SolrServerException: Server at http://localhost:8983/solr/LocationIndex returned non ok status:400, message:Document [null] missing required field: id

我没有得到模式的哪些变化需要按预期工作?

在我添加的文档中,它包含字段 solr_ver 和 solr_id。它(solr)如何以及在何处创建 id 通过结合这两个领域的东西 solr_ver-solr_id

编辑:

这个链接 它给出了如何引用这个链。我无法理解如何在架构中使用它?我应该在哪里进行更改?


7143
2017-07-23 09:49


起源

你可以发布你的db-data.config文件 - Nipun


答案:


因此,看起来您已正确定义了updateRequestProcessorChain,它应该可以正常工作。但是,您需要将其添加到solrconfig.xml文件而不是schema.xml。您提供的附加链接向您展示了如何修改solrconfig.xml文件并将定义的updateRequestProcessorChain添加到当前 /update solr实例的请求处理程序。

所以找到以下内容:

  1. 移动你的 <updateRequestProcessorChain> 到你的solrconfig.xml文件。
  2. 更新 <requestHandler name="/update" class="solr.UpdateRequestHandler"> 在solrconfig.xml文件中输入并修改它,使其如下所示:

    <requestHandler name="/update" class="solr.UpdateRequestHandler">
       <lst name="defaults">
          <str name="update.chain">composite-id</str>
       </lst>
    </requestHandler>
    

然后,这应该执行您定义的更新链,并在将新文档添加到索引时填充id字段。


10
2017-07-23 15:40



我按照你说的更新,并希望这是正确的..但现在我得到了 class not found 错误 CloneFieldUpdateProcessorFactory。此功能不适用于较旧的solr版本吗?我正在使用solr,其规格如下: Solr Specification Version: 3.4.0.2011.09.09.09.06.17, Solr Implementation Version: 3.4.0 1167142 - mike - 2011-09-09 09:06:17。 - N D Thokare
我只是看了Solr的来源,不幸的是, CloneFieldUpdateProcessorFactory 仅适用于Solr 4.x版本,不包含在Solr 3.x版本中。抱歉。 - Paige Cook
我尝试了它,我收到此错误文档缺少必需的uniqueKey字段:composite-id。我们是否必须在文档中定义此composite-id - Nipun


上述解决方案可能具有一些限制,如果“dest”超过最大长度,因为连接字段太长。 MD5Signature还有一个解决方案(一个类能够从一组指定文档字段的串联生成签名字符串,128位散列用于精确重复检测)

<!-- An example dedup update processor that creates the "id" field on the fly 
     based on the hash code of some other fields.  This example has 
     overwriteDupes set to false since we are using the id field as the 
     signatureField and Solr will maintain uniqueness based on that anyway. --> 
<updateRequestProcessorChain name="dedupe"> 
  <processor class="org.apache.solr.update.processor.SignatureUpdateProcessorFactory"> 
    <bool name="enabled">true</bool> 
    <bool name="overwriteDupes">false</bool> 
    <str name="signatureField">id</str> 
    <str name="fields">name,features,cat</str> 
    <str name="signatureClass">org.apache.solr.update.processor.Lookup3Signature</str> 
  </processor> 
  <processor class="solr.LogUpdateProcessorFactory" /> 
  <processor class="solr.RunUpdateProcessorFactory" /> 
</updateRequestProcessorChain> 

从这里: http://lucene.472066.n3.nabble.com/Solr-duplicates-detection-td506230.html


4
2018-06-16 18:30



我尝试了这个解决方案但它仍然给我Document缺少强制uniqueKey“id” - Nipun


我想将此作为评论添加,但这些天不可能获得信誉......无论如何,这是一个更好的链接: https://wiki.apache.org/solr/Deduplication


2
2017-07-04 17:19