面试问题总结

2019/3/10晚上22:39,迎来了人生的第一次电话面试

阿里菜鸟国际物流部门

自我介绍

我按之前准备的模版讲完了,他的反应是介绍的很简洁,看来电话面试的自我介绍还可以多加些内容,自我介绍提到了两个点–比赛+项目,他听的很认真,所以一定要说自己熟悉的点!!

问的问题

1) 就比赛方面,大概问了比赛的类型和成果。
当时有点虚,因为都是本科的比赛,全都忘完了,生怕他细问。

2)爬虫,一句话说说你对爬虫的认识?
爬虫是一个模拟人类请求网站行为的程序。

3)如何爬取一张图片??
爬图片
流程:

requests发送网页请求 –> 使用get获取response –> 利用BeautifulSoup对response进行文本筛选,抓取图片链接 —> 新建一个图片存放的文件夹 —> urlretrieve下载图片到文件夹

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
import requests
import urllib.request
from bs4 import BeautifulSoup
import os
import time

url = 'http://www.biquzi.com/'
headers = {'User-Agent': 'Mozilla/5.0'}
response = requests.get(url, headers=headers) # 使用headers避免访问受限
soup = BeautifulSoup(response.content, 'html.parser')
items = soup.find_all('img')
folder_path = './photo/'
if os.path.exists(folder_path) == False: # 判断文件夹是否已经存在
os.makedirs(folder_path) # 创建文件夹

for index,item in enumerate(items):
if item:
html = requests.get(item.get('src')) # get函数获取图片链接地址,requests发送访问请求
img_name = folder_path + str(index + 1) +'.png'
with open(img_name, 'wb') as file: # 以byte形式将图片数据写入
file.write(html.content)
file.flush()
file.close() # 关闭文件
print('第%d张图片下载完成' %(index+1))
time.sleep(1) # 自定义延时
print('抓取完成')

注:requests.get(url),构造一个向服务器请求资源的Request

补充:爬取视频的套路跟图片是一样的,图片是找到img标签,视频是找到.mp4的后缀名。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
import requests
import os
#url = "https://wx3.sinaimg.cn/mw690/0064wDqKgy1fulqkev62bj30b40gowg4.jpg"
url="http://video.pearvideo.com/mp4/adshort/20180825/cont-1420328-12741912_adpkg-ad_hd.mp4"
root = "D://pics//"
path = root+url.split('/')[-1]
try:
if not os.path.exists(root):
os.mkdir(root)
if not os.path.exists(path):
r = requests.get(url)
r.raise_for_status()
with open(path,'wb') as f:
f.write(r.content)
f.close()
print("文件保存成功")
else:
print("文件保存成功")
except:
print("爬取失败")

4)讲一种你熟悉的深度学习模型?我讲的是CNN

5)对机器学习的理解,是解决什么问题?

6)机器学习能否超越样本?举一个自学习的例子?
当时说的小米的小爱同学,他好想不太懂,应该说天猫精灵或者AlphaGo
自学习系统就是系统具有能够快速按照自己运行过程中的经验来改进控制算法的能力。

7)你还有什么问题,可以问他

小激动~~~顺利通过一面,后面还有2到3面,预计会死的很惨!!!

阿里仓储部门面试

2019/3/11 20:43分接到阿里仓储部门的面试,面了半个小时左右,整体感觉还不错,小哥人还是比较温和的,他是仓储做技术的,但是不知道后期会不会放我鸽子,不给通过…

自我介绍

基于昨天存在的问题,今天将自我介绍的内容丰富了,着重讲了“校招SP“项目。

问的问题

1)爬虫中遇到的最大的困难?
我讲了爬虫的流程,数据采集、处理、存储…

2)urllib库中如何获取数据,用的get还是post,有没有遇到get()方法参数不够用的情况?

3)反爬虫??(这块他问的很多,应该重视!!!!)
他提到了统计,根据后台的数据,分析用户的行为

4)如何获取头部信息??
我说用了fiddler软件,获取头部信息。

5)如何爬取优酷上的视频??
跟爬图片一样的套路,详细内容在上面有讲。

6)问了”快铃“项目?
但是我说这是我研一参加的项目,就只做了爬虫部分。

7)问了学生工作,说是加分项

8)问了本科参加的比赛,我大概说了美赛和国赛的情况。

9)个人的优势是什么??
我说了学习能力、团队合作能力以及执行力。

10)有什么需要问他的??
他们主要用的Java,SSH框架和一些开源的框架需要了解
他说可以把python的项目用Java实现
爬虫比较好理解,应该想想反爬虫的问题!!