0%

APScheduler 算是 Python 中一个比较轻量级的定时任务库了,基于 Quartz ,而且在项目上也用得不少(毕竟可以跨平台而且配置起来方便),之前接手项目的时候也了解过一下,太久没用又忘了 (ˉ▽ˉ;)… 想想如果在 Blog 里面记下来,有时候顺手翻翻也好。

这里介绍的 APScheduler 是 8 月份的 3.5.3 版本,本人用的是 Python 3.5。如果有别的问题,欢迎交流,或者查看 Version History !

阅读全文 »

最近接手了一个全网爬虫的工作项,基于 Python 2.7 ,用到了 Scrapy 框架,同时也用了 newspaper 这个库(github 地址)来做基于标签密度的正文内容提取。鉴于之前一直运行良好,所以我也没有太在意这一块。后面事业部那边说最近发现好几个网站的网页都出现了中文乱码,让我处理一下这个问题。末了我也顺手把处理的经过记录一下,分享一下经验。

阅读全文 »

由于新工作关系的原因,需要用到中文分词去计算两个文本的相关度。中文分词器发展到现在也五花八门,如 .NET 下经常会用到的盘古分词,JAVA 的 IKAnalyzer、庖丁解牛,以 api 服务形式提供的搜狗分词、腾讯文智等。在 Python 下比较常用的中文分词库就是 jieba 分词,结巴分词也致力于成为最好的中文分词库。

阅读全文 »

之前都是通过捣鼓虚拟机来学习容器,因为在 Windows 下 Docker 的实现不太理想。昨天心血来潮地想试一下 Docker For Windows,发现自己的机器不达标,无奈转向了 DockerToolbox,也因此发现了 Kitematic 这一个优秀的 Docker 可视化管理工具。

阅读全文 »

记得当初学习计算机网络的时候,在机房用得比较多的是老旧的 sniffer,自己动手的时候用的比较多的是 wireshark。后面做 Web 开发的时候,用 Fiddler 比较顺手,也比较轻便,满足日常开发的需求。当然熟练的话也可以直接用 tcpdump 之类的工具。后面在用 Python 做安全方面的内容的时候,发现了 Scapy 这么一个强大的嗅探库(不是爬虫框架 Scrapy),支持 Py2 和 Py3,而且在 QPython 上也集成了。这个还真的是利器啊!

阅读全文 »

在实际生产环境中,日志是我们排查错误的重要手段,好的日志系统可以让你的应用变得更加健壮。在用 C# 码代码的时候,别无二选的当然就是 Apache 的 Log4Net 。出乎我意料的是,Python 提供的日志功能更加方便,也更加容易上手,可以说是 SOC(关注点分离,Separation of concerns)的一个典范了。至于 logging 的具体设计规范,可以参考 PEP282

logging 模块是 Python 提供的标准日志模块,它的优势在于:

  1. 对多线程支持
  2. 通过不同级别对日志进行分类
  3. 灵活性和可配置性
  4. 将如何记录日志与记录什么内容分离
阅读全文 »

译者:写在前面

之前也为一些社区参与过翻译工作,我那时候翻译的大部分都是关于前端的内容,感觉国内前端的社区还是比 Python 的社区活跃不少。现在 Python 借着人工智能的东风开始流行起来,我个人也乐于看到 Python 被更多的开发者乃至企业所接受(好的一面,坏的一面嘛大家也会感受到也不说了)。本人的翻译,力求结合国内计算机技术的实际达到让读者容易理解和接受,不过实力有限,提高也不是一朝一夕的事情,各位有缘能读到我的翻译,请不吝指教,相互交流。

原文地址 ,这也是我拜读《流畅的Python》所获知的,这本书的确是目前市面上进阶的好教材。

阅读全文 »

前一段时间刚好用到了 Python 去直连数据库做一些数据分析的操作,习惯了 ORM 之后 SQL 语句也丢下比较长的时间了,好一会才想起来 SQL 注入这一回事。之前学习 Python 的时候也没额外留意这一个点(也有可能是我忘记其实有这个知识点),原以为可能要我自己去实现这一套玩意了。但是 Python 的哲学里面有这么一条 Although never is often better than *right* now. 格言,就先花点时间去搜一下,果然发现了在 DB API 2.0 已经有解决方案。

阅读全文 »

最后这部分,是关于 WSGI 一些在实现上的说明,用于给那些要支持 WSGI 标准的服务器程序或框架的实现提供指导意见,包括 服务器端扩展 API应用程序端的配置URL重写 以及 文件处理。这部分的翻译省略了 Supporting Older (<2.2) Versions of Python 一节,毕竟目前对于 Python 2.2 之前版本的使用可以说是九牛一毛了(而且 WSGI 标准本身就要求 Python 2.2 版本以上),有兴趣或者需要的读者可以自行参阅。对于 PEP3333 规范的解读告一段落,不过 WSGI 的解读还有下文,到时候可能会在 http.server 中穿插探讨。

阅读全文 »

这一部分主要是 WSGI 规范中的细节部分,涉及主要的方法(start_response 等)和对象(application_object 等),以及它们之间是如何交互,调用顺序如何,同时该遵守哪些约束,它们又是如何组合来实现 HTTP 协议的功能的。

阅读全文 »