我从各种来源获得了很多设备名称和制造商。我正在寻找一种程序化方式(可能是api)来确定哪些设备是手机,哪些是平板电脑,哪些是其他设备(例如计算机)。
我在网上搜索,我只能找到 WURFL API非常好,但它无法仅通过其名称来确定设备。
设备的一些示例(名称,制造商):
Galaxy Note 3,三星
MID-97D,上网本
谢谢您的帮助!
编辑:
所有答案都非常好。如果我能分开赏金,我会做到这一点。
我选择给予GSMArena答案的赏金,因为它是最有用和最实用的答案。
感谢大家!
经过一段时间的搜索和谷歌搜索后,我遇到了一个名为的网站 GSMArena。现在该网站是手机和平板电脑的比较网站,你基本上可以看到平板电脑/手机的所有规格。查看搜索页面的源代码,我发现有一个包含所有搜索结果的“制造者”类的div。
此外,一旦您点击手机/平板电脑链接,它就会转到标题为“平板电脑名称 - 完整平板电脑规格”(如果是标签)的页面,以及“移动电话名称 - 完整电话规格”(如果它是移动电话)。
如果它找到与搜索查询的直接匹配,它会直接重定向到规范页面,所以我添加了一个If测试来检查它是否是搜索页面或spec页面。
我的程序获取“maker”div中的第一个链接(使用 BeautifulSoup)然后转到链接,拉出html,然后获取页面的标题。
如果没有找到结果,我的程序将其标记为“其他”
码:
import urllib.request
from bs4 import BeautifulSoup
searchlist = ["galaxy note","nexus 10","nexus 5","galaxy ace","moto g","galaxy tab 2", "MID-97D"]
for searchstr in searchlist:
other = False
searchstr = searchstr.replace(" ", "%20")
searchlink = "http://www.gsmarena.com/results.php3?sQuickSearch=yes&sName="+searchstr
string = urllib.request.urlopen(searchlink).read().decode("ISO-8859-1")
soup = BeautifulSoup(string,"lxml")
if soup.title.string == "Phone Finder results - GSMArena.com":
makerdiv = soup.find_all('div', attrs={'class': 'makers'})
links = makerdiv[0].find_all('a')
if len(links) != 0:
link = "http://www.gsmarena.com/" + links[0].attrs['href']
string = urllib.request.urlopen(link).read().decode("ISO-8859-1")
soup = BeautifulSoup(string,"lxml")
else:
other = True
if other == False:
title = soup.title.string
name = title.split("-")[0]
rest = title.split("-")[1]
taborphone = rest.split(" ")[2]
else:
name = searchstr
taborphone = "other"
print("Name:",name)
print("Type:",taborphone)
输出:
Name: Samsung Galaxy Note5
Type: phone
Name: Samsung Google Nexus 10 P8110
Type: tablet
Name: LG Nexus 5X
Type: phone
Name: Samsung Galaxy Ace 3
Type: phone
Name: Motorola Moto G (3rd gen)
Type: phone
Name: Samsung Galaxy Tab 2 7.0 P3100
Type: tablet
Name: MID-97D
Type: other
它的工作原理:)
优点:
数据库将始终保持更新,GSMArena在其数据库中有许多手机和平板电脑
缺点:
它不能用于平板电脑和手机以外的设备,如上网本等。
我刚注意到@Oli在评论中提出了GSMArena。
我建议采用一种更简单的方法。每当设备用于无线通信时,都必须进行认证。在美国 - 这就是FCC。
他们有一个API:
https://data.fcc.gov:443/api/accessibilityclearinghouse/product/searchProducts?api_key=23232323&format=json&rowPerPage=20&searchString=galaxy%20s4
这很乐意回归:
"maker": "Samsung",
在这里看到: https://ach.fcc.gov/for-developers//#!/API/product_searchProducts_get
您还可以查询eis,如eBay和亚马逊。
我在用 http://www.handsetdetection.com/ API付费版本,可提供准确的结果。他们有免费试用版选项进行测试。
$referer_site = $_SERVER['HTTP_REFERER'];
$useragent = $_SERVER['HTTP_USER_AGENT']; //"NokiaN95";//
$curlOpts = array(
CURLOPT_URL => "http://api.handsetdetection.com/apiv3/site/detect/xxxxx.json",
CURLOPT_RETURNTRANSFER => true,
CURLOPT_HTTPAUTH => CURLAUTH_DIGEST,
CURLOPT_USERPWD => 'xxxxxxxx:xxxxxxxxx',
CURLOPT_HTTPHEADER => array('Content-Type:application/json'),
CURLOPT_POSTFIELDS => '{"user-agent":"'.$useragent.'"}');
/******************************************/
$curl = curl_init();
curl_setopt_array($curl, $curlOpts);
$responseBody = curl_exec($curl);
$jsonObj = json_decode($responseBody);
curl_close($curl);
$device_details = json_decode($responseBody);
以下方法应该有效,但需要一些编程:
- 为您尝试分类的每个设备类型名称创建同义词组(例如[手机;手机],[平板电脑;手柄])
- 使用 Google搜索REST API 获取设备名称的搜索结果(更专业,可以使用互联网零售商API)
- 使用 常用表达 根据特定组中的每个同义词计算搜索结果中的匹配数
- 所有同义词的总匹配计数最高的组代表您的设备类型
- 如果未找到匹配项,则设备类型应归类为“其他”。为了防止误报匹配作为目标群体之一,可以设置最小匹配数量,以确保“其他”设备未被错误地放入“平板电脑”或“手机”。我假设将立即对多个搜索结果项执行正则表达式检查
主要优点是您的结果将始终是最新的,并得到世界上最好的搜索引擎的支持。
至于缺点,如果您将免费使用Google API,他们将限制每天允许的请求数量(可以增加费用)。此外,“其他”设备可能需要进行一些审核,以确保您的分类程序正常运行
通过在谷歌中输入样本设备名称并查看搜索结果,可以在开发之前粗略估计方法潜力。如果它们包含“缺失”的设备类型,那么值得尝试实现它。
由于Google API对商业用途有严格的速率限制和限制,因此您可以考虑使用其他搜索引擎,例如:雅虎,哪个 允许商业用途 如果你通知他们,他们在这种情况下有很高的费率限制。