Jane

Learn & Live


  • 首页

  • 分类

  • 标签

  • 归档

一只爬虫的难产之旅(三)

发表于 2018-04-23 | 分类于 技术笔记

迟迟没有动手整理这一部分的内容,因为即使磕磕绊绊最终写出了一个勉强能用的爬虫,也是基于“拿来主义”在各大神的代码基础上拼凑出来的,其中还有很多知识点并没有弄懂。后来再查资料细看也十分痛苦。现在写记录的这些大部分还是一知半解的知识,暂且罗列在这儿,待有时间慢慢咀嚼。

下面进入正文。

阅读全文 »

一只爬虫的难产之旅(二)

发表于 2018-04-11 | 分类于 技术笔记

在上一篇文章中,基于Scrapy的爬虫的架子已经搭起来了,满心欢喜以为虫子能跑起来了,结果发现高兴得太早噢~

写程序没有bug那还有什么乐趣?与八阿哥斗,其乐无穷啊!下面,就来看看八阿哥都使出了哪些招数吧~


Headers

即使网站的页面都是对公众开放随意访问的,但是对于原始数据,很多网站如果没有公开API那就是不愿意轻易让大家获取的了。对于基本的robot或是真实用户的访问,通过HTTP请求的header字段判断是最简单的方式。

阅读全文 »

一只爬虫的难产之旅(一)

发表于 2018-04-08 | 分类于 技术笔记

在这个阳光明媚的周末下午,我决定写一篇笔记纪念一下我写第二只爬虫的心路历程,毕竟苦苦挣扎了将近一个月呢。

以下为本人的碎碎念,看正文可直接跳过去下一小节了~

为什么是第二只呢,因为第一只虫子头脑简单四肢发达,顺利出生在狗年春节之前。那是在我还是一个彻头彻尾的爬虫小白的时候,在老司机们的推荐下用框架Scrapy以汽车之家-搜索文章页面为入口写了一个简单的以关键词为输入爬取搜索结果页面的爬虫,这个过程出人意料的顺利。

阅读全文 »

Back in the Saddle

发表于 2018-03-30 | 分类于 随笔

之前建了一段时间,陆陆续续发过一些,但其实大部分笔记都是简单的划重点摘抄,没有经过消化,感觉没有意义。

这次重新整理了一下,会保留一部分之前的内容,之后也不会更太勤,会让每一篇都是有认真思考和自我梳理的内容。

谨以此为自己的成长之路留个纪念。

爱是桩奇怪的事情

发表于 2018-03-26 | 分类于 读书笔记

《一个叫欧维的男人决定去死》, by 弗雷德里克·巴克曼,我还是记不住作者的名字。他笔下的故事却真的有着谜一般的魅力,很久没有读到这样一本书,让人情不自禁在又哭又笑中频繁切换,上一秒还笑出声,翻到下一页的那一刻,眼泪又喷涌而出。在深夜里流着眼泪真的很担心第二天上班眼睛会肿啊。

开头出现的那个刻薄固执古板的老头,真是让人喜欢不起来呢。故事是这样开始,随着故事铺展开来,一个讨厌老头的形象逐渐隐去,原来,欧维是这样反差萌的呢。

阅读全文 »

JavaScript - bind, apply, call

发表于 2018-01-05 | 分类于 技术笔记

Function.prototyp.bind

1
func.bind(thisArg[, arg1[, arg2[, ...]]]);

bind()方法可以指定函数运行的上下文,bind的第一个参数用于绑定this的指向,其后的参数在函数真正调用时会被添加在实际调用的输入参数之前。
举个例子
阅读全文 »

正则表达式学习(三)- 正则表达式引擎

发表于 2017-10-26 | 分类于 技术笔记
  • DFA - 不支持忽略有限量词,不支持捕获型括号和回溯
  • 传统型NFA - 支持忽略优先量词
  • POSIX NFA(传统型NFA增加修改之后使其满足POSIX标准)
  • DFA/NFA混合型

如果执行时间很长或者显示堆栈溢出,就是NFA

阅读全文 »

正则表达式学习(二) - 正则的处理

发表于 2017-10-05 | 分类于 技术笔记

在第一篇正则表达式的笔记中提到了很多元字符及其使用举例。细心一点的话,会发现不同语言或工具下正则表达式的写法和用法都有很大的不同。

在某种特定的编程语言或工具软件中使用正则表达式时,需要注意以下3个问题:

  1. 支持的元字符,以及这些元字符的意义。
  2. 正则表达式与语言或者工具的“交互”方式。比如如何进行正则表达式的操作,容许进行哪些操作,以及这些操作的目标文本类型。
  3. 正则表达式引擎如何将表达式应用到文本。语言或工具的设计者实现正则表达式的方法对正则表达式能够取得的结果有重要的影响。

上一篇介绍了正则表达式最常用的部分元字符,本篇将正则表达式与语言或工具的几种常见“交互方式”。

阅读全文 »

正则表达式学习(一) - 初识正则

发表于 2017-09-30 | 分类于 技术笔记

不只是在开发中,在一般的文件搜索中,我们总是会遇到需要匹配/查找/替换某一类文字的场景,正则表达式在这时是非常有用的。
而长时间以来,在畏难心理的作用下,自己一直处于被正则表达式的强大支配的恐惧下,总是担心hold不住它,每次要用到就很紧张。但是,并不希望这种状态一直延续下去,所以下定决心好好学习一下正则,参考书是Jeffrey E.F. Friedl的《精通正则表达式》。

阅读全文 »

没有童话

发表于 2017-08-29 | 分类于 随笔

周末看了《海边的曼彻斯特》。

影片开场的好一会儿,镜头在Lee现在与过去的生活片段中切换,脸盲的我犹疑了好半天才确定那个调戏着正太小侄子的自我感觉无比良好的话痨和后来那个浑身上下可以用一个字——丧来形容的男人是同一个人。

习惯性垂着头,眼神涣散,垂下而不自觉在卷着的手指,连说话都显得很累的样子。暴躁易怒,一言不和就满嘴fuck,或干脆一拳过去。丧。从大荧幕里溢出来的丧。

阅读全文 »
1…678

75 日志
6 分类
39 标签
GitHub E-Mail
© 2015 — 2022 Jane Liao
由 Hexo 强力驱动
|
主题 — NexT.Mist v5.1.4