博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
基于百度AI的自然语言处理文字分类
阅读量:5008 次
发布时间:2019-06-12

本文共 1563 字,大约阅读时间需要 5 分钟。

前言:

需要在百度AI平台注册登录并创建项目。

爬虫代码

1 import scrapy 2 from BaiDuAi.items import  BaiduaiItem 3  4 class AiSpider(scrapy.Spider): 5     name = 'ai' 6     # allowed_domains = ['www.xxx.com'] 7     #人民网url 8     start_urls = ['http://politics.people.com.cn/n1/2018/1217/c1001-30470023.html'] 9 10     def parse(self, response):11         title=response.xpath('/html/body/div[4]/h1/text()').extract_first()12         content=response.xpath('//*[@id="rwb_zw"]//text()').extract()13         content=''.join(content).strip('\n \t')14         item=BaiduaiItem()15         item['title']=title16         item['content']=content17 18         yield  item
爬虫代码

管道代码

1 from aip import AipNlp 2  3 """ 你的 APPID AK SK """ 4 APP_ID = '15198150' 5 API_KEY = 'jaObSr6rmSmqsjWfKGGpmwxB' 6 SECRET_KEY = '808Eiz4FPkfMwS2ajClXYhKrcFMN1YUN' 7  8 client = AipNlp(APP_ID, API_KEY, SECRET_KEY) 9 10 class BaiduaiPipeline(object):11     keys=[]12     def process_item(self, item, spider):13         title=item['title'].replace('\xa0','')14         content=item['content'].replace('\xa0','')15         keys_dict=client.keyword(title,content)16         for dic in keys_dict['items']:17             self.keys.append(dic['tag'])18 19 20         keys="/".join(self.keys)21         typec_dic=client.topic(title,content)22         news_type=typec_dic['item']['lv1_tag_list'][0]['tag']23 24         with open('./xinwen.html','w',encoding='utf-8')as fp:25             fp.write(title+'\n\n'+content+'\n\n'+keys+'\n\n'+news_type)26         return item
管道

 

转载于:https://www.cnblogs.com/duanhaoxin/p/10138702.html

你可能感兴趣的文章
linux设备驱动程序第3版学习笔记(例程2--hellop.c)
查看>>
玩转storm
查看>>
第10章 使用Apache服务部署静态网站
查看>>
关于给予webApp框架的开发工具
查看>>
c语言编写的生成泊松分布随机数
查看>>
Maven入门笔记
查看>>
iOS webView的常见属性和方法
查看>>
理解position:relative
查看>>
Codeforces Round #344 (Div. 2) Messager KMP的应用
查看>>
20145308刘昊阳 《Java程序设计》第4周学习总结
查看>>
js倒计时
查看>>
EasyUI datagrid 格式 二
查看>>
Android虹软人脸识别sdk使用工具类
查看>>
UI:基础
查看>>
浅谈 @RequestParam 和@PathVariable
查看>>
设计模式之---装饰器设计模式
查看>>
基于WordNet的英文同义词、近义词相似度评估及代码实现
查看>>
Equation漏洞混淆利用分析总结(上)
查看>>
shell学习1shell简介
查看>>
Qt 【无法打开 xxxx头文件】
查看>>