从零开始实现一个终端小词典-原创手记-慕课网

最近花了一点时间写了一个词典小工具。复制你需要查询的单词，在终端输入ss即可得到查询结果。查询过的单词和结果会被追加写入本地的文件，生成生词本。

coderDic.gif

实际Mac上单词的查询非常的简单：你可以 command + control + d 来自动划词查询，也可以设置手势三指轻拍来唤出结果。我不满意的地方在于这种查询方式无法汇总我查询过的单词，另外翻译的结果很多时候我看起来太过冗余。

mac自带词典的查询结果

另外一个我动手的原因是：之前的文章一直太过理论了，为了整理这些内容花了太多精力在概念的理解上，我希望能够找一个机会动手写一写代码。

项目地址：CoderDic
编程语言：python 2.7.10
系统环境：macOS 10.12.6
依赖库：参见requirements.txt

要实现这样一个小工具，第一步需要思考的是翻译来源。我本身是希望借助已有的翻译 api来做这件事情，比如百度翻译和有道翻译。可是查看文档以后我觉得不是特别满意，理由如下：

需要自己去弄一个key
这部分api应用场景是给出一个最贴切的翻译结果，所以查询结果单一不全面。

举一个简单的例子，我利用Postman向百度翻译请求翻译apple

{     "from": "en",     "to": "zh",     "trans_result": [         {             "src": "apple",             "dst": "苹果"         }     ] }

作为翻译api，这样的返回没有问题，按照用户查询的内容给出最可能的翻译；但是作为词典，这样的结果不太能够接受。所以我放弃了这种方案，选择了爬取百度搜索得到的结果。

比如我需要查询apple，我可以百度搜索apple 翻译

apple 翻译

“单词” + 翻译组合搜索的方式，返回的第一条就是百度翻译的结果，附带音标，多语义解释，例句和包括复数过去式等其他的解释。

这样第一步就明确了，我们模拟向百度发起一个搜索请求，获取返回结果，代码如下

def searchWord(word):     # get html text     request = urllib2.Request('http://www.baidu.com/s?wd='+urllib.quote(word + "翻译"))     response = urllib2.urlopen(request)     #parse html     soup = BeautifulSoup(response.read(), "lxml")

利用urllib2和BeautifulSoup来获取百度返回的结果并进行解析。借助Chrome的开发者工具，我们来分析一下返回界面，确定我们需要的翻译结果在哪里。

Chrome 开发者工具

可以发现所有的结果都包含在一个class=op_dict_content的div里

content = soup.find_all("div", {'class':"op_dict_content"})     if content:             print 'get success'     else:             print ‘get fail! Please check your word is correct!'

我们尝试获取这个div，如果获取成功继续解析，失败则提示检查输入单词。重复上述步骤，我们逐个获取需要的内容。

        #get word symbol         symbol = ''         symbols_table = soup.find(class_="op_dict_table")         symbol_trs = symbols_table.find_all("tr")         for tr in symbol_trs:             for td in tr.find_all('td'):                 symbol += stringHandle(td.getText()) + ' '             print symbol         #get translations         translations = []         translation_table = soup.find_all(class_ = re.compile("op_dict3_english_result_table"));         for tr in translation_table:             aaa = ''             for td in tr.find_all('td'):                 temp = stringHandle(td.getText())                 if temp == '[其他]':                      temp = '\n' + temp + '\n'                 translations.append(temp);                 aaa += temp + ' '             print aaa         print '\n'

音标和翻译都成功获取，但是在拿例句的时候发生了一些问题，在返回的网页源码当中是没有这部分内容的。

原因非常简单，这部分的内容是通过Ajax动态获取的。要获得这部分的内容显然直接抓取不太现实，为了获取这部分动态的资源我们可以利用Selenium+PhantomJS来模拟浏览器的环境，从而请求获取这部分的内容。

但是，但是！这个框架太重了！我们只是要例句这么一点内容，不至于这么复杂。让我们分析一下网页到底请求了什么，简单模拟一下就可以了。

我查看了网页的源码，确实在一个<script>里找到了相关的代码。这部分代码很长，我格式化以后把有用的部分展示出来。

var cbName = "bd_cb_dict3_" + +new Date; $.ajax({             url: _this.data.sensearchUrl + "?wd=" +  encodeURIComponent(_this.data.wd) + "&cb=" + cbName,             jsonpCallback: cbName,             dataType: "jsonp",             success: function(data) {                 if (!ajaxFinished) if (0 == data.err_no && data.liju_result) { ...

虽然我不太了解js这部分，但是依然可以看出这里发起了一个Ajax请求。但是url部分的_this.data.sensearchUrl我不确定是什么，让我们再借助一下Chrome来看看能不能发现什么。打开Network里我发现了这样一个请求

Network

很显然这就是我们想要的那部分内容！让我们仔细分析一下这个请求：这是一个GET请求，包含了四个参数wd，cb，callback和_；请求地址是https://sp1.baidu.com/5b11fzupBgM18t7jm9iCKT-xh_，我不太确定后面随机字符串的含义，但这不重要，我们不必关心。

这里有一个小坑。如果你输入的是一个错误的单词，百度搜索会联想相近的结果；而这个接口需要准确的单词，不能够联想。

让我们重新回头查看一下js的代码，来分析一下各个参数的含义。

wd应该是word的缩写，也就是我们想要查询的单词。注意这里的单词不带翻译后缀
cb的含义结合js代码看是固定前缀 'bd_cb_dict3_' 加上当前时间戳
callback是Ajax请求指定的回调名称，和cb参数一致
_是当前时间戳

让我们来模拟一下这部分的请求

base_url = 'https://sp1.baidu.com/5b11fzupBgM18t7jm9iCKT-xh_/sensearch?' refererStr = ('https://www.baidu.com/s?ie=utf-8&f=8&'         'rsv_bp=1&'         'tn=baidu&'         'wd=well%20%E7%BF%BB%E8%AF%91&'         'oq=learn%2520%25E7%25BF%25BB%25E8%25AF%2591&'         'rsv_pq=8a7812c70001e773&'         'rsv_t=85ae5zPCwmuK3yQhbD%2BYFkooE%2BMpMYpZQ5kot35E%2FTPqoYXS6tHMjVP4%2BYo&'         'rqlang=cn&'         'rsv_enter=1&'         'rsv_sug3=5&'         'rsv_sug1=5&'         'rsv_sug7=100&'         'rsv_sug2=0&'         'inputT=1168&rsv_sug4=2102') headers = {     'Host': 'sp1.baidu.com',     'Referer': refererStr,     'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36',     'X-Requested-With': 'XMLHttpRequest', } def fetchExampleWord(word):     cbName = "bd_cb_dict3_" + str(int(time.time()));     params = {         'wd': word,         'cb': cbName,         'callback': cbName,         '_':  str(int(time.time()))     }     url = base_url + urllib.urlencode(params)     try:         response = requests.get(url, headers=headers)         if response.status_code == 200:            print 'get success'     except requests.ConnectionError as e:         print('Error', e.args)

返回的是一个json字符串，但是并不规范，格式是/**/bd_cb_dict3_1522221579963(json)，我们需要自己对response做一个截断然后再解析，结果如下

response json解析结果

err_no是状态码，0是成功
err_msg是消息反馈，成功情况下是success
liju_result是一个数组，里面有4个对象：两个包含了例句信息的数组，一个数字和一个字符串。字符串应该是例句来源，数字是ID，这些都不重要，我们可以忽略。

重点放在liju_result里的两个数组。第一个数组包含的是英语例句，第二个数组是中文翻译的内容。

词组内容

数组里嵌套的是多个数组。第一个对象是单词或者文字；第二个对象是w_x格式的字符串，其中x代表第几个；第三个字符串的含义不明，没有找到特别明显的规则。

第四个和第五个对象开始我并没有特别在意，开始我直接就去拼接字符串了，但是出现一个问题：中文拼接每个汉字中间不需要空格，而英文的单词之间需要。同时英文拼接还有一个问题在于，单词后面需要加空格，而标点符号后面不需要。

回头来看第四个和第五个对象，当第四个对象为0时表示这是一个后面需要拼接空格的部分，通常这个数组会有第五个对象，也就是一个‘ ’字符串；当第四个对象为1时表示这个部分后面不需要额外的拼接，也就没有第五个对象了。

分析到这里后面的工作就非常好处理了

        if response.status_code == 200:             str1 = response.text[27:-1]                          json1 = json.loads(str1)             words = json1['liju_result']             for x in xrange(0,2):                 temp = ''                 word = words[x]                 for char in word:                     extraStr = ''                     if len(char) == 5:                         extraStr = char[4]                     if char[3] == 1:                         temp += str(char[0]) + extraStr                     else:                         temp += (str(char[0]) + extraStr                                                            print temp

到这一步基本的内容都已经获取成功。我们需要依次把他们打印输出到终端，单纯的黑色太过单调，我们想要用颜色来标识不同的部分，为此在打印部分我们分别设置了一下颜色

print "\033[1;32m%s\033[0m" %('\n' + word + " 查询成功!") print "\033[0;32m%s\033[0m" %('===============================') print "\n"

查询的结果我们需要写入本地，至于写入的格式其实并不确定，可以自己定义。因为想要后期添加一个后台管理，所以我仿照POST请求里Body的方式，把每一个查询结果的字符串写入文件，以一个随机字符串Boundary来分割。写入的路径依据环境变量ENV_CODERDIC_PATH来决定，如果为空就按照os.getcwd()写入当前的工作路径。

def writeCotent(jsonStr):     path = os.getenv('ENV_CODERDIC_PATH')     if not path:         path = os.getcwd()         os.putenv('ENV_CODERDIC_PATH', path)     if not os.path.exists(path):         print "\033[1;31m%s\033[0m" %('Error: Path "' + path + '" is not exist!')         return     filePath = os.path.join(path, __CODERDICNAME)     with open(filePath, 'a+') as f:         f.write(jsonStr + '\n')         f.write(__BOUNDARY + '\n')

考虑到每次输入命令还需要再粘贴一次单词非常的麻烦，所以我想直接从粘贴板获取单词而不必再自己写入参数了。

if __name__ == '__main__':     content = pyperclip.paste()     searchWord(str(content))

终端输入

ln 文件路径 \usr\bin\自定义命令

一个简单的词典就完成了。

作者：Noskthing
链接：https://www.jianshu.com/p/84f9cfca2e45