问题 格式化显式内容的实用方法


作为一名博主,我想根据它的具体内容(暴力,情色,剧透,淫秽等等)来标记我的CMS中的任何内容。是否有适当的实用库和标准?

我已经阅读了有关RTA,ICRA,PICS和W3C POWDER的内容,但它们用meta或header标记整个页面。 POWDER看起来太复杂了 - 据我所知,它在页面外添加了元数据?如果我使用HTML5 doctype,你能提供一个简单有用的例子吗?

我想要的是一种基于评级标记HTML元素的方法。我也希望它符合任何父母过滤。将EXIF数据添加到图像中以使它们独立于上下文进行过滤也是很好的。


8191
2018-04-10 10:36


起源

人工干预似乎是恕我直言的最佳方式。但祝你找到自动化库/实现:) - Andreas Wong
我还不需要自动化。我想自己标记,我只需要一个微格式 - Artjom Kurapov
为什么不为它创建文档并将其提交到microformats.org?然后相应地标记你的html元素,并使用一些javascript你会很高兴 - mobius
据我所知,除了对所述内容进行审查之外,标记显式内容的用处不大。为此,我说“关注互联网审查!” :-) - FtDRbwLXw6
你也许可以通过javascript来做到这一点。也许当某人发布某些内容时,您会检查您标识的关键字,并使用css和jquery的内部html标记您标记的任何单词时附加标签或徽章或图像。如果这听起来像你想要的那样我可以处理样本。 - chapman84


答案:


据我所知,没有任何广泛使用的标准可以做你所描述的。另外,最终目标是什么?浏览器能够自动识别(并以某种方式处理/过滤)显式内容吗?

如果您打算自己处理过滤,则可以使用HTML5自定义数据属性。有了它们你可以做类似的事情:

<li class="blogpost" data-rating="G"> [content] </li>

然后使用该自定义属性使用JavaScript,CSS,PHP或其他任何语言过滤/隐藏内容,例如:

li.blogpost[data-rating="R"] { [some styling] }

如何处理这种范式的选择非常广泛。这不是一个标准,显然需要大量的规划和编码。但是,它允许您根据您定义的指标过滤内容。这种类型的解决方案将与其他评论中建议的简单登录系统很好地配对,其中用户可以选择他们想要过滤的内容。您还可以为其定义年龄限制,或使用任意数量的其他选项。

这可能不会给你任何基于标准的自动过滤器或类似的东西,但据我所知,这些技术无论如何都没有得到广泛的支持。

如果这与您正在寻找的甚至不相近,您能否提供有关您希望最终产品如何运作的更多详细信息?


8
2018-04-12 17:23



是的,我对自定义解决方案的想法是一样的。实际上“R”究竟是什么呢 意思?有很多评级系统,只为特定国家制作一个评级系统将是死路一条。所以它应该更加语义化和多元化。但同时不要过于设计。像数据暴力=“80%”数据 - 裸露=“4%”。或者也许代替%使用标签..所以它也应该是可扩展的。 - Artjom Kurapov
@ArtjomKurapov - 数字值似乎是一个更好的主意。它仍然不会完全“自动化”,但你可以做一些事情,比如向用户提供一种方法,在他们看到任何内容之前设置“暴力”/“裸露”/等的阈值,并在该点之后过滤它。 “R”和“G”只是许多可能性的例子:] - orourkek


由于没有微格式,我决定制作一个。将其命名为xrate 1.0,写道 关于它的文章 并补充说 草稿到microformats.org

基本上它的评级内容从0到100基于危险与这些HTML属性:

  • data-xrate-lang  - 淫秽语言
  • data-xrate-sex  - 浪漫,色情,色情
  • data-xrate-nude  - 裸露程度
  • data-xrate-disgust  - 可能引起厌恶(狗屎,幼虫,分解)
  • data-xrate-violence  - 暴力及其结果 - 武器,伤口,尸体,血液
  • data-xrate-asocial  - 吸烟,酗酒,吸毒,赌博,卖淫
  • data-xrate-blink  - 闪烁可能导致癫痫的动画
  • data-xrate-spoiler  - 故事被重述
  • data-xrate-camera  - 如果应用程序(flash / applet?)可以访问摄像机
  • data-xrate-malware  - 如果资源可能导致查看者机器上的感染(病毒,特洛伊木马等)

如果有更好的解决方案,请通知我们。


4
2018-04-18 16:16



非常酷,很棒的工作!如果我需要这种系统,我一定会尝试一下 - orourkek
我不认为使用 data-* 属性 适用于此用例:“自定义数据属性旨在存储自定义数据 私人到页面 或应用程序“[...]”这些属性是 不适用于独立于本网站的软件 使用属性。“(由我加粗) - unor
在这种情况下,问题仍然存在 - Artjom Kurapov


我在为您寻找解决方案时偶然发现了这一点

http://www.ehow.com/how_7580400_filter-explicit-content-apache-server.html

也许它会对你有所帮助

说明

1

下载并安装mod_sed Apache模块(参见    资源)。一些主机帐户可能已经有这个Apache模块   安装;在这种情况下,请联系您的Web托管服务提供商以检查是否   这个模块已经可用。

2

登录Web服务器并打开“httpd.conf”文件   记事本。如果使用本地Web,则可以在Apache文件夹中找到此文件   服务器和大多数主机帐户的“/ etc / httpd / conf”文件夹。   如果您无法找到此文件,请与您的Web主机联系   服务提供者协助。

3

添加命令   过滤显式内容。例如,要自动替换   在所有HTML文件中单词“该死”到“darn”,在您的文件中键入以下内容   “httpd.conf”文件:

AddOutputFilter Sed html

OutputSed“s / damn / darn / g”

4

保存更改。

阅读更多:如何过滤Apache Web服务器中的显式内容|   eHow.com    http://www.ehow.com/how_7580400_filter-explicit-content-apache-server.html#ixzz1rw85S300


1
2018-04-13 16:01



你误会了。我不想隐藏或替换web服务器的内容。它仍然应该服务,可能有一些渐进的增强,基于格式化,通知浏览器它是多么危险。 - Artjom Kurapov


评分有一个元标记: name="rating" content="general"但是据我所知,它并没有被许多行业真正使用,所以可能有点无意义 - 我不能谈论过滤软件。

我从未在EXIF中听到有关评级的图像。

如果有的话  敏感,它应该在年龄检查登录后面,如果没有,你应该信任用户和他们自动过滤,如果他们使用它。


0
2018-04-10 10:41



我不想标记整个页面。是的,我可以自定义设计和保护内容免受剧透和我可能拥有的任何内容。但我希望它是一个标准。 - Artjom Kurapov
登录系统是非常标准的;)虽然没有HTML标记,但我知道它可以标记RE的成熟度等级。 - BenOfTheNorth