python实现明星专家系统-原创手记-慕课网

其实一直对电影里面的对×××进行人脸匹配然后，刷出来×××信息很感兴趣，今天晚上一时兴起，就搞了一把小的。

理论上：你可以建立一个你感兴趣的百万级的数据库，给你个照片，你就可以得到她是谁，哪里的，信息都可以知道，而且因为人与人之间的网状的关联，你甚至可以知道她喜欢的人是谁，男朋友长啥样子。

想信我：一切都不是虚构的，你能做的更多！

思路：

一、数据收集，可以采用爬虫对网上海里的明星信息进行有针对的爬取

二、格式化数据，存入mysq，把明星的自拍照的文件名存入数据库中

三、使用百度的api对程序进行编写，说实话，百度人脸识别做的很棒了，精确度很高

四、你上传一张图片（或者你能想象到的方式），后面的程序会对你海量的数据库中人的信息进行比对

五、输出匹配到的人的信息，和相似度的数值。

直接上代码：

# encoding:utf-8`

import base64

import urllib

import urllib2

import simplejson as json

from os import listdir

import MySQLdb

import sys

reload(sys)

sys.setdefaultencoding('utf-8')

def conmysql():

conn= MySQLdb.connect(

host='localhost',

port = 3306,

user='root',

passwd='123456',

db ='xxnlove',

charset='utf8'

)

#cur = conn.cursor()

return conn

'''

人脸比对接口

'''

def facecompar(image01,image02):

matchUrl = "https://aip.baidubce.com/rest/2.0/face/v2/match"

# 二进制方式打开图文件

f = open(image01, 'rb')

# 参数images：图像base64编码

img1 = base64.b64encode(f.read())

# 二进制方式打开图文件

f = open(image02, 'rb')

# 参数images：图像base64编码

img2 = base64.b64encode(f.read())

# 参数images：图像base64编码,多张图片半角逗号分隔

params = {

"images": img1 + ',' + img2}

params = urllib.urlencode(params)

access_token = '24.1a060b87a0dfcab77317999d.25922220.1505832798.282335-10029360'

matchUrl = matchUrl + "?access_token=" + access_token

request = urllib2.Request(url=matchUrl, data=params)

request.add_header('Content-Type', 'application/x-www-form-urlencoded')

response = urllib2.urlopen(request)

content = response.read()

if content:

content = json.loads(content)

similar=content['result'][0]['score']

return similar

#if similar >80:

#print "两张图片的相似度为"+str(similar)+" 很有可以能是同一个人"

# return similar

#else:

# #print "两张图片的相似度为："+str(content['result'][0]['score'])

# return similar

def compare():

similarlist=[]

similardict={}

for img in listdir('./star/'):

similarvalue=facecompar('compar.jpg','./star/'+img)

similarlist.append(similarvalue)

similardict[similarvalue]=img

return similarlist,similardict

if __name__=="__main__":

similarlist,similardict=compare()

similarkey=sorted(similarlist)[-1]

starname=similardict[similarkey]

conn = conmysql()

cur = conn.cursor()

sql="select * from face where iamge='%s'" % starname

cur.execute(sql)

results = cur.fetchall()

print "一共对数据库进行比对了"+str(len(similarlist))+"条信息"

for info in results:

print "匹配到明星的信息："+ info[0],info[1],info[2],"相似度："+str(similarkey)

conn.close()

测试图片：

wKioL1mZz5yALdLMAAAibjYpu9k110.jpg-wh_50

因为她是我高中的时候喜欢过的明星，所以~~~~

明星数据库：

wKioL1mZ0CqRR28sAACaiecdnXc612.png-wh_50

因为只是先把路走通，所以数据很少。

明星的照片所在目录：

wKiom1mZ0JfgW-gxAABWMwUCWoc260.png-wh_50

明星照片：

wKioL1mZ0TaDYUgkAAEoM037WUY697.jpg-wh_50

wKiom1mZ0TyxtWekAAAYjPASZXI435.jpg-wh_50

wKiom1mZ0T3Ct4rkAABWbIy1wLY860.jpg-wh_50

wKioL1mZ0TfCrKxTAAD3DdinQxs862.jpg-wh_50

wKioL1mZ0TeyVpLGAAB_CoyoEHQ209.jpg-wh_50

程序运行效果：

wKiom1mZ0ZGiLnJrAABMWg3gOwY615.png-wh_50

一共对数据库进行比对了5条信息

匹配到明星的信息：曾轶可 27 1990年1月3日出生于湖南省常德市汉寿县，创作型女歌手，演员。相似度：63.689125061

优化后的：

# encoding:utf-8`

import base64

import urllib

import urllib2

import simplejson as json

from os import listdir

import MySQLdb

import sys

reload(sys)

sys.setdefaultencoding('utf-8')

import requests

from bs4 import BeautifulSoup

import re

def conmysql():

conn= MySQLdb.connect(

host='localhost',

port = 3306,

user='root',

passwd='123456',

db ='xxnlove',

charset='utf8'

)

#cur = conn.cursor()

return conn

def crawling(name):

url="http://baike.baidu.com/search/word?word='%s'" % name

response = requests.get(url)

response.encoding = 'utf-8'

text = response.text

soup = BeautifulSoup(text, 'lxml')

for infor in soup.find_all('meta')[3:4]:

global information

information=(infor.get('content'))

return information

def facecrawling(name):

url="http://baike.baidu.com/search/word?word='%s'" % name

response = requests.get(url)

response.encoding = 'utf-8'

text = response.text

soup = BeautifulSoup(text, 'lxml')

imgurl = soup.img.get('src')

try:

response = requests.get('%s' % imgurl)

open('./star/'+name+'.jpg', 'wb').write(response.content)

except:

print "继续"

'''

人脸比对接口

'''

def facecompar(image01,image02):

matchUrl = "https://aip.baidubce.com/rest/2.0/face/v2/match"

# 二进制方式打开图文件

f = open(image01, 'rb')

# 参数images：图像base64编码

img1 = base64.b64encode(f.read())

# 二进制方式打开图文件

f = open(image02, 'rb')

# 参数images：图像base64编码

img2 = base64.b64encode(f.read())

# 参数images：图像base64编码,多张图片半角逗号分隔

params = {

"images": img1 + ',' + img2}

params = urllib.urlencode(params)

access_token = '24.1fba688d5a060b87a0dfcab7731.2592000.1505832798.282335-100360'

matchUrl = matchUrl + "?access_token=" + access_token

request = urllib2.Request(url=matchUrl, data=params)

request.add_header('Content-Type', 'application/x-www-form-urlencoded')

response = urllib2.urlopen(request)

content = response.read()

if content:

content = json.loads(content)

try:

similar=content['result'][0]['score']

return similar

except:

print image02+"照片比对有问题"

#if similar >80:

#print "两张图片的相似度为"+str(similar)+" 很有可以能是同一个人"

# return similar

#else:

# #print "两张图片的相似度为："+str(content['result'][0]['score'])

# return similar

def compare():

similarlist=[]

similardict={}

for img in listdir('./star/'):

similarvalue=facecompar('compar.jpg','./star/'+img)

similarlist.append(similarvalue)

similardict[similarvalue]=img

return similarlist,similardict

def stardb():

starstr="邢佳栋李学庆高昊潘粤明戴军薛之谦贾宏声于波李连杰王斑蓝雨刘恩佑任泉李光洁姜文黑龙张殿菲邓超张杰杨坤沙溢李茂黄磊于小伟刘冠翔秦俊杰张琳陈坤黄觉邵峰陈旭马天宇杨子邓安奇赵鸿飞马可黄海波黄志忠李晨后弦王挺何炅朱亚文胡军许亚军张涵予贾乃亮陆虎印小天于和伟田亮夏雨李亚鹏胡兵王睿保剑锋于震苏醒胡夏张丰毅刘翔李玉刚林依轮袁弘朱雨辰丁志诚黄征张子健许嵩向鼎陆毅乔振宇闫肃李健王啸坤胡歌吉杰吴俊余韩寒黄海冰魏晨郭敬明何晟铭巫迪文谢苗郑源欢子文章陈翔井柏然左小祖咒含笑李咏徐誉滕段奕宏李炜罗中旭张远李立释小龙大左君君毛宁樊凡周一围于荣光汤潮张晓晨吴京山野陈龙侯勇张国强玉米提周觅张丹峰俞思远姚明冯绍峰陈玉建吴建飞郑钧胡彦斌李智楠钱枫高曙光谢和弦陈道明柳云龙汪峰陈楚生陈思成魏晨马雪阳袁成杰崔健杜淳林申刘洲成黄晓明刘烨张翰杨洋宋晓波解小东窦唯姜武陈泽宇彭坦张一山李易峰严宽东来东往张国立王志文佟大为柏栩栩蒲巴甲凌潇肃李行亮毛方圆张嘉译大张伟师洋李幼斌张磊朱梓骁武艺杨俊毅耿乐钱泳辰撒贝宁徐峥谭杰希黄晟晟海鸣威汪涵王学兵贾一平孙红雷袁文康蔡国庆吴秀波王栎鑫安琥刘心俞灏明张超于小彤张峻宁乔任梁朴树赵帆张译聂远张敬轩付辛博黄明杜海涛李宇春张靓颖周笔畅何洁刘亦菲张含韵陈好尚雯婕汤唯张筱雨韩雪孙菲菲张嘉倪霍思燕陈紫函朱雅琼江一燕厉娜许飞胡灵郝菲尔刘力扬 reborn 章子怡谭维维魏佳庆张亚飞李旭丹孙艺心巩贺艾梦萌闰妮王蓉汤加丽汤芳牛萌萌范冰冰赵薇周迅金莎纪敏佳黄雅莉叶一茜马苏阿桑董卿金铭徐行姚笛朱妍夏颖陈西贝冯家妹高娅媛林爽郑靖文陶虹徐静蕾黄奕董洁巩俐高圆圆于娜孟广美 Gameapple 美女奉奉小龙女彤彤张子萱果子丁贝莉吸血芭比公交MM 香香段思思二月丫头刘羽琦 dodolook 拉拉公主沈丽君周璟馨丁叮谢雅雯陈嘉琪宋琳郭慧敏卢洁云佘曼妮黄景马艳丽蒋雯丽宁静许晴张静初瞿颖张延孙俪闵春晓蔡飞雨吴卓羲游鸿明胡宇崴张震岳汤镇业黄立行苗侨伟周星驰温升豪萧敬腾窦智孔陈汉典郑伊健陈国坤张信哲范逸臣王绍伟辰亦儒张卫健周汤豪成龙林志颖苏有朋温兆伦吴建豪黄家驹卢广仲林文龙赵又廷刘德华周传雄李治廷周华健钟镇涛周渝民陈柏霖邱心志陈百强郑元畅王杰狄龙郭富城光良黄浩然彭于晏马浚伟蓝正龙林佑威杜德伟费翔许志安黄义达黄耀明陈键锋王喜黄贯中江华贺一航郑少秋蔡康永陈伟霆黄宗泽刘畊宏梁家辉林志炫赵文卓樊少皇连凯吴镇宇哈狗帮吴尊张国荣方大同刘松仁郑嘉颖周柏豪王祖蓝古巨基萧正楠邹兆龙李铭顺吴奇隆金城武李圣杰陈建州余文乐罗志祥吴启华李克勤秦汉单立文汪东城莫少聪陈冠希黄秋生罗嘉良欧弟马国明范植伟阮经天郑中基张智霖麦浚龙蔡依林张韶涵王心凌徐若瑄林志玲王菲 S.H.E Twins 徐熙媛桂纶镁林依晨陈乔恩梁静茹蔡诗芸范玮琪廖碧儿张柏芝李嘉欣容祖儿李玟贾静雯 MaggieQ 林心如朱茵叶璇唐宁曾之乔安以轩杨丞琳侯佩岑同恩陈松伶文颂娴梁凯蒂林韦君陈思璇曹敏莉乐基儿郑雪儿佘诗曼郑秀文萧蔷温碧霞刘嘉玲刘玉玲林熙蕾李若彤张曼玉关之琳陈慧琳萧淑慎蔡少芬萧亚轩田丽杨采妮李丽珍琦琦天心任港秀杨思敏郭静纯钟丽缇孙燕姿叶玉卿翁红邱淑贞蔡淑臻梁咏琪季芹舒淇莫文蔚戴佩妮刘若英杨千桦范伟琪徐熙娣陈宝莲吴辰君张庭林嘉欣俞飞鸿叶子楣周海媚伊能静蜜雪薇琪侯湘婷 Hebe 应采儿许茹芸吴佩慈郑希怡范文芳李彩桦蔡淳佳本多RuRu 范晓萱张惠妹林忆莲关心妍卓依婷杨恭如陈文媛吴小莉梅艳芳林青霞赵雅芝孟庭苇吴倩莲陈慧珊许慧欣黎姿周慧敏钟楚红蔡琴齐豫邓丽君林凤娇陈玉莲周冰倩杨惠姗金素梅翁美玲高胜美甄妮胡慧中邝美云俞小凡吕秀菱萧芳芳刘雪华潘迎紫梁雁翎汪明荃苏芮冯宝宝利智张艾嘉叶倩文陈淑桦郑裕玲潘越云凤飞飞喻可欣"

starslist=starstr.split()

for star in starslist:

inform=crawling(star)

facecrawling(star)

try:

conn = conmysql()

cur = conn.cursor()

image=star+'.jpg'

sql="insert into star values(%s,%s,%s)"

cur.execute(sql,(star,inform,image))

cur.close()

conn.commit()

conn.close()

finally:

print "connitue"

import time

time.sleep(1.5)

if __name__=="__main__":

similarlist,similardict=compare()

similarkey=sorted(similarlist)[-1]

starname=similardict[similarkey]

conn = conmysql()

cur = conn.cursor()

sql="select * from face where iamge='%s'" % starname

cur.execute(sql)

results = cur.fetchall()

print "一共对数据库进行比对了"+str(len(similarlist))+"条信息"

for info in results:

print "匹配到明星的信息："+ info[0],info[1],info[2],"相似度："+str(similarkey)

conn.close()

数据库：

wKiom1ma3BPAxiQoAAMPtHNehzg309.png-wh_50

wKiom1ma3Gyi4HfeAAVVwINw1ng320.png-wh_50

项目总结：人脸比对对照片的有一定要求，因为我爬取的照片大小不规则，所以比对的时候，会有问题，人脸比对用的百度的api接口，感觉关键部分不是自己实现的，正在恶补数据结构和算法。