精华内容
下载资源
问答
  • 该库是对目前市面上已有的开源中文聊天语料的搜集和系统化整理工作 该库搜集了包含 - chatterbot - 豆瓣多轮 - PTT八卦语料 - 青云语料 - 电视剧对白语料 - 贴吧论坛回帖语料 - 微博语料 - 小黄鸡语料 ...
  • 该库是对目前市面上已有的开源中文聊天语料的搜集和系统化整理工作 该库搜集了包含 chatterbot 豆瓣多轮 PTT八卦语料 青云语料 电视剧对白语料 贴吧论坛回帖语料 微博语料 小黄鸡语料 共8个公开闲聊常用语料和短信,...
  • JSP聊天+BBS论坛

    2010-06-04 10:12:45
    这个BBS和聊天室完全采用JSP开发,开发运行环境linux+tomcat,数据库oracle9i,JSP 通过JDBC与数据库相连。 一、功能 BBS和chatroom两者有机的结合在一起,用户可以在这两部分取得经验值,达到10000分 后升级为巫师,...
  • 说明该库是对目前市面上已有的开源中文聊天语料的搜集和系统化整理工作该库搜集了包含chatterbot豆瓣多轮PTT八卦语料青云语料电视剧对白语料贴吧论坛回帖语料微博语料小黄鸡语料共8个公开闲聊常用语料和短信,白鹭...

    说明

    该库是对目前市面上已有的开源中文聊天语料的搜集和系统化整理工作

    该库搜集了包含

    chatterbot

    豆瓣多轮

    PTT八卦语料

    青云语料

    电视剧对白语料

    贴吧论坛回帖语料

    微博语料

    小黄鸡语料

    共8个公开闲聊常用语料和短信,白鹭时代问答等语料。

    并对8个常见语料的数据进行了统一化规整和处理,达到直接可以粗略使用的目的。

    使用该项目,即可对所有的聊天语料进行一次性的处理和统一下载,不需要到处自己去搜集下载和分别处理各种不同的格式。

    注意

    以下所有语料都已经统一下载好,存在 https://pan.baidu.com/s/1szmNZQrwh9y994uO8DFL_A 提取码:f2ex 中。给出的语料原链接是为了说明该语料的原始出处是在哪里

    环境

    python3

    处理过程

    将各个来源的语料按照其原格式进行提取,提取后进行繁体字转换,然后统一变成一轮一轮的对话。

    数据来源及说明

    语料名称

    语料数量

    语料来源说明

    语料特点

    语料样例

    是否已分词

    chatterbot

    560

    开源项目

    按类型分类,质量较高

    Q:你会开心的 A:幸福不是真正的可预测的情绪。

    douban(豆瓣多轮)

    352W

    来自北航和微软的paper, 开源项目

    噪音相对较少,原本是多轮(平均7.6轮)

    Q:烟台 十一 哪 好玩 A:哪 都 好玩 · · · ·

    ptt(PTT八卦语料)

    40W

    开源项目,台湾PTT论坛八卦版

    繁体,语料较生活化,有噪音

    Q:为什么乡民总是欺负国高中生呢QQA:如果以为选好科系就会变成比尔盖兹那不如退学吧

    qingyun(青云语料)

    10W

    某聊天机器人交流群

    相对不错,生活化

    Q:看来你很爱钱 A:噢是吗?那么你也差不多了

    subtitle(电视剧对白语料)

    274W

    开源项目,来自爬取的电影和美剧的字幕

    有一些噪音,对白不一定是严谨的对话,原本是多轮(平均5.3轮)

    Q:京戏里头的人都是不自由的A:他们让人拿笼子给套起来了了

    tieba(贴吧论坛回帖语料)

    232W

    偶然找到的

    多轮,有噪音

    Q:前排,鲁迷们都起床了吧A:标题说助攻,但是看了那球,真是活生生的讽刺了

    weibo(微博语料)

    443W

    来自华为的paper

    仍有一些噪音

    Q:北京的小纯洁们,周日见。#硬汉摆拍清纯照# A:嗷嗷大湿的左手在干嘛,看着小纯洁撸么。

    xiaohuangji(小黄鸡语料)

    45W

    原人人网项目语料

    有一些不雅对话,少量噪音

    Q:你谈过恋爱么A:谈过,哎,别提了,伤心..。

    使用方法

    将解压后的raw_chat_corpus文件夹放到当前目录下

    目录结构为

    raw_chat_corpus

    -- language

    -- process_pipelines

    -- raw_chat_corpus

    ---- chatterbot-1k

    ---- douban-multiturn-100w

    ---- ....

    -- main.py

    -- ...

    执行命令即可

    python main.py

    或者

    python3 main.py

    生成结果

    每个来源的语料分别生成一个独立的*.tsv文件,都放在新生成的clean_chat_corpus文件夹下。

    生成结果格式为 tsv格式,每行是一个样本,先是query,再是answer

    query \t answer

    结果的使用

    这个就根据每个人不同的情况自主使用即可

    个人对于聊天机器人方向实践也不是很多,以下一篇之前写的知乎专栏供参考

    《从产品完整性的角度浅谈chatbot》

    文章粗略讲解了如下一些方面,介绍了聊天机器人在实际产品化过程中可能遇到的问题和解决办法。

    chatbot自身人格的设置

    产品上线需要考虑的敏感词处理

    文本检索模型的使用

    文本生成模型的使用

    回答打分机制

    万能回答的使用策略

    多媒体消息的处理

    产品模型部署的问题

    版权说明

    本项目为非商业项目,为纯搜集和汇总资料,如有侵权,请在issue下留言。

    展开全文
  • 中文公开聊天语料库

    千次阅读 2019-03-11 08:30:00
    源 / 专知语料内容该库搜集了包含chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料小黄鸡语料共8个公开闲聊常用语料和短...

    源 / 专知


    语料内容

    该库搜集了包含chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料小黄鸡语料共8个公开闲聊常用语料和短信,并对其进行了统一化规整和处理,达到直接可以粗略使用的目的。

    640?wx_fmt=png

    640?wx_fmt=png

    使用方法

    语料下载:

     链  接:https://pan.baidu.com/s/1szmNZQrwh9y994uO8DFL_A 

    提取码:f2ex


    项目地址:

    链  接:https://github.com/codemayq


    推荐阅读

    给程序员的几条建议

    GitHub 日收 7000 星, Windows 计算器项目开源即爆红!

    16个深度学习技巧实战,资深研究员的血泪教训

    学计算机的妹子,个个都是段子手

    5 个好用的开发者 Vim 插件

    面试经典 | 百道Python题备战春招


    640?wx_fmt=png

    喜欢就点一下「好看」呗~

    展开全文
  • .OpenIM(Android)主体功能集成1.1前置准备如果您单纯是想体验OpenIM的功能,建议直接跳过这一步。直接查看快速集成。在这个集成教程中,我们使用已创建的Demo应用,向您展示如何快速地集成OpenIMKit(Android)。...

    .  OpenIM(Android)主体功能集成

    1.1  前置准备

    如果您单纯是想体验OpenIM的功能,建议直接跳过这一步。直接查看快速集成。

    在这个集成教程中,我们使用已创建的Demo应用,向您展示如何快速地集成OpenIMKit(Android)。

    您需要入驻开发者并且创建应用后,才能集成OpenIM并且发布您的App。

    您需要在完成快速集成后,将一些内容替换为您申请到的特定内容,才能发布您的App。对于这些需要替换的内容,会在教程中以注意点的形式标识出。

    如有问题,请加旺旺群:1478679234 ,QQ群:283686989 ,邮箱:msg-support@umeng.com等联系

    1.2  Step1 下载SDK包

    如果您单纯是想体验OpenIM的功能,建议直接跳过这一步。直接下载Demo。如果您已经有了友盟appkey,请先下载SDK。 SDK下载后解压,得到以下内容:

    fad362453e0ac21b80fdce6bd7e17c77.pngdoc是API说明文档

    libs目录包含SDK。(libs中的libinet.so放到lib/armeabi目录)

    res存放了集成IMKit所需要资源文件。

    AndroidManifest.xml包含了集成SDK所需的权限和Android组件的声明。

    proguard.cfg代码混淆配置,开发者需要将这些配置复制到自己APP的混淆配置文件中去。

    其它文件夹(文件)用户不用去关注。

    注意:res/drawable目录下的yw_1222.jpg不能重命名

    在你正式发布应用之前,您务必需要使用自己申请的身份图片,并测试IM功能是否正常。现在,您可以暂时跳过这一步,以便快速的完成集成工作。您可以从以下链接中了解如何申请您自己的身份图片。

    1.3  Step2 开发环境配置

    将res、libs、assets目录内容复制到自己创建的工程中。

    将AndroidManifest.xml内容复制到自己创建的工程中(即与自己工程中的AndroidManifest.xml内容合并)。

    proguard.cfg是混淆配置,开发者需要将这些配置复制到自己APP的混淆配置文件中去(也是合并的方式)。

    如果自己创建的工程未包含android-support-v4.jar,请从我们的demo工程中复制。demo下载

    1.4  Step3 初始化

    1.4.1  在res/valuse/strings里面加入

    23015524 5424dc93fd98c58ec20289da

    1.4.2  在AndroidManifest里面加入

    1.4.3  在Application的onCreate()方法中加入一下代码

    OpenIMAgent im = OpenIMAgent.getInstance(this);

    im.init();

    注意:

    1、app_key一定要写到res/valuse/strings里面否则会报错

    2、初始化方法的调用建议放在Application onCreate方法中;如果您已经有友盟的umeng_appkey和app_key,可以替换成友盟的umeng_appkey和app_key。app_key在im.umeng.com中创建app后获取。

    1.5  Step4 获取SDK对象实现

    YWIMKit mIMKit = YWAPI.getIMKitInstance();

    此对象获取到后,可保存为全局对象,供APP使用。

    1.6  Step5 登录

    //开始登录 String userid = "testpro1";

    String password = "taobao1234";

    IYWLoginService loginService = mIMKit.getLoginService();

    YWLoginParam loginParam = YWLoginParam.createLoginParam(userid, password);

    loginService.login(loginParam, new IWxCallback() { @Override public void onSuccess(Object... arg0) {

    } @Override public void onProgress(int arg0) { // TODO Auto-generated method stub } @Override public void onError(int errCode, String description) { //如果登录失败,errCode为错误码,description是错误的具体描述信息 }

    });

    注意:此demo中登陆账号使用的appkey为5424dc93fd98c58ec20289da,公共帐号:visitor01~visitor100 密码:taobao1234

    1.7  Step6 打开会话列表

    Intent intent =mIMKit.getConversationActivityIntent();

    startActivity(intent);

    1.8  Step7 打开单聊窗口

    String target = "targetUserId";// 消息接收者ID Intent intent =mIMKit.getChattingActivityIntent(target);

    startActivity(intent);

    1.9  更多功能

    上述的快速集成文档能够让您以最快的速度完成Android OpenIM SDK的集成。您可能会对如下主题感兴趣:

    展开全文
  • 聊天中文语料库对比 主要中文聊天语料库如下: chatterbot 豆瓣多轮 PTT八卦语料 青云语料 电视剧对白语料 贴吧论坛回帖语料 微博语料 小黄鸡语料 共8个公开闲聊常用语料和短信,白鹭时代问答等语料。 并对8个常见...

    聊天中文语料库对比

    主要中文聊天语料库如下:

    • chatterbot
    • 豆瓣多轮
    • PTT八卦语料
    • 青云语料
    • 电视剧对白语料
    • 贴吧论坛回帖语料
    • 微博语料
    • 小黄鸡语料

    共8个公开闲聊常用语料和短信,白鹭时代问答等语料。

    并对8个常见语料的数据进行了统一化规整和处理,达到直接可以粗略使用的目的。

    使用该项目,即可对所有的聊天语料进行一次性的处理和统一下载,不需要到处自己去搜集下载和分别处理各种不同的格式。

    说明:本博文转载于github项目说明:https://github.com/codemayq/chinese_chatbot_corpus

    注意

    以下所有语料都已经统一下载好,存在 https://pan.baidu.com/s/1szmNZQrwh9y994uO8DFL_A 提取码:f2ex 中。给出的语料原链接是为了说明该语料的原始出处是在哪里

    环境

    python3

    处理过程

    将各个来源的语料按照其原格式进行提取,提取后进行繁体字转换,然后统一变成一轮一轮的对话。

    数据来源及说明

    语料名称语料数量语料来源说明语料特点语料样例是否已分词
    chatterbot560开源项目按类型分类,质量较高Q:你会开心的 A:幸福不是真正的可预测的情绪。
    douban(豆瓣多轮)352W来自北航和微软的paper, 开源项目噪音相对较少,原本是多轮(平均7.6轮)Q:烟台 十一 哪 好玩 A:哪 都 好玩 · · · ·
    ptt(PTT八卦语料)40W开源项目,台湾PTT论坛八卦版繁体,语料较生活化,有噪音Q:为什么乡民总是欺负国高中生呢QQ A:如果以为选好科系就会变成比尔盖兹那不如退学吧
    qingyun(青云语料)10W某聊天机器人交流群相对不错,生活化Q:看来你很爱钱 A:噢是吗?那么你也差不多了
    subtitle(电视剧对白语料)274W开源项目,来自爬取的电影和美剧的字幕有一些噪音,对白不一定是严谨的对话,原本是多轮(平均5.3轮)Q:京戏里头的人都是不自由的 A:他们让人拿笼子给套起来了了
    tieba(贴吧论坛回帖语料)232W偶然找到的多轮,有噪音Q:前排,鲁迷们都起床了吧 A:标题说助攻,但是看了那球,真是活生生的讽刺了
    weibo(微博语料)443W来自华为的paper仍有一些噪音Q:北京的小纯洁们,周日见。#硬汉摆拍清纯照# A:嗷嗷大湿的左手在干嘛,看着小纯洁撸么。
    xiaohuangji(小黄鸡语料)45W原人人网项目语料有一些不雅对话,少量噪音Q:你谈过恋爱么 A:谈过,哎,别提了,伤心..。
    语料名称语料原始URL(即出处,尊重原始版权)
    chatterbothttps://github.com/gunthercox/chatterbot-corpus/tree/master/chatterbot_corpus/data/chinese
    douban(豆瓣多轮)https://github.com/MarkWuNLP/MultiTurnResponseSelection
    ptt(PTT八卦语料)https://github.com/zake7749/Gossiping-Chinese-Corpus
    qingyun(青云语料)
    subtitle(电视剧对白语料)https://github.com/fateleak/dgk_lost_conv
    tieba(贴吧论坛回帖语料)https://pan.baidu.com/s/1mUknfwy1nhSM7XzH8xi7gQ 密码:i4si
    weibo(微博语料)61.93.89.94/Noah_NRM_Data/
    xiaohuangji(小黄鸡语料)https://github.com/candlewill/Dialog_Corpus

    使用方法

    下载语料 https://pan.baidu.com/s/1szmNZQrwh9y994uO8DFL_A 提取码:f2ex

    将解压后的raw_chat_corpus文件夹放到当前目录下 目录结构为

    raw_chat_corpus
    -- language
    -- process_pipelines
    -- raw_chat_corpus
    ---- chatterbot-1k
    ---- douban-multiturn-100w
    ---- ....
    -- main.py
    -- ...
    

    执行命令即可

    python main.py

    或者

    python3 main.py

    生成结果

    每个来源的语料分别生成一个独立的*.tsv文件,都放在新生成的clean_chat_corpus文件夹下。

    生成结果格式为 tsv格式,每行是一个样本,先是query,再是answer

    query \t answer
    

    结果的使用

    这个就根据每个人不同的情况自主使用即可

    个人对于聊天机器人方向实践也不是很多,以下一篇之前写的知乎专栏供参考 《从产品完整性的角度浅谈chatbot》

    https://zhuanlan.zhihu.com/p/34927757

    本文转载于https://github.com/codemayq/chinese_chatbot_corpus

    展开全文
  • 聊天时使用的颜色代码,如果想关闭,使用“none” allowHexColors: true # 在聊天时启用HEX COLORS ########################### ### 称号系统 ### ########################### ranks: # 你可以使用以下权限插件: #...
  • ChatterBot是一个Python库,可以轻松...这使开发人员可以轻松创建聊天机器人并自动与用户进行对话。本文通过阅读chatterBot官方文档,以及阅读源代码,分析出ChatterBot的结构,画出类图。并成功在本地进行实验测试。
  • 越学越有趣:『手把手带你学NLP』系列项目10 ——NLP预训练模型小型化与部署的那些事儿 如有飞桨相关技术有问题,欢迎在飞桨论坛中提问交流: http://discuss.paddlepaddle.org.cn/ 欢迎加入官方QQ群获取最新活动...
  • 来源:专知本文约1000字,建议阅读5分钟。该Github库是对目前市面上已有的开源中文聊天语料的搜集和系统化整理工作。语料内容该库搜集了包含chatterbot、豆瓣多...
  • 这是一款社交网络系统,你可以在简短的几分钟内创建自己的社交平台,支持发布视频、音频、文件、图片,用户之间可以相互关注加好友,实时聊天,或用户可以创建自己的群组,公共页面,且支持实名认证V验证,与此同时...
  • 微信聊天记录做成词云~

    千次阅读 2020-06-01 19:43:08
    最近快毕业了,所以想把微信聊天记录全部导出、做成词云、然后寄给好友,想想都很浪漫,哈哈。先上词云结果图(结果图拿《三国演义》的,想啥呢,我才不会把我的聊天记录发到网上,哈哈),然后教大家如何做。 ...
  • 在做聊天机器人的过程中,人最友好的输入还是通过语音,这几年,深度学习使得ASR服务的准确度大大提升。针对中文,科大讯飞的服务做的不错。 但是 … 科大讯飞没有提供Node.js SDK, 我就造了这个轮子。 目前仅支持...
  • 即时通讯IM应用中的聊天消息时间显示是个再常见不过的需求,现在都讲究用户体验,所以时间显示再也不能像传统软件一样简单粗地暴显示成“年/月/日 时:分:秒”这样。所以,市面上几乎所有的IM都会对聊天消息的时间...
  • 该库是对目前市面上已有的开源中文聊天语料的搜集和系统化整理工作 该库搜集了包含 ·chatterbot ·豆瓣多轮 ·PTT八卦语料 ·青云语料 ·电视剧对白语料 ·贴吧论坛回帖语料 ·微博语...
  • Python开发语音聊天机器人

    千次阅读 2019-07-24 13:14:40
    普通话(纯中文识别) 输入法模型 有标点 支持自定义词库 1737 英语   有标点 不支持自定义词库 1637 粤语   有标点 不支持自定义词库 1837 ...
  • 论坛聊天日常用语

    万次阅读 2009-03-21 08:28:00
    论坛日常用语: 1、BBS:①Bulletin Board System的缩写,指电子公告板系统,国内统称论坛。②波霸,Big-Breasted Sister的缩写。 2、斑竹:版主,也可写作板猪。由于拼音输入造成的美妙谐音。副版主叫“板斧”。 3...
  • (1)解决了国外空间使用时,可以用中文名称登陆论坛,在后台可以删除中文用户资料(要在编辑界面里删)。 (2)增加特殊帖插件,有VIP会员等级。 (3)虚拟形象版本升级为最新版!可以有显示头像和虚拟形象的选择...
  • 留言聊天 下面是文件的名字,我放了一些图片,文章里不是所有的图主要是放不下...,大家下载后可以看到。 链接:https://pan.baidu.com/s/1tNFphkzwCYnclmwma0tuAw 提取码:rr1d WeLive php在线客服系统 v7.0.0 ...
  • 优点:不站空间资源(绝对纯天然绿色插件)营养价值高啊 ------------------------------------------------------ 欢迎访问魔幻星空宝儿中文论坛: ...
  • [论坛社区]Asp.Net Forums v2.3.2130 官方中文版_hiforums051031.rar [论坛社区]BBSGood论坛程序 ASP.NET版_asptoaspx_forbbsgood.rar [论坛社区]Discuz!NT 2.6 For Access_dnt_26_n2.rar [论坛社区]Discuz!NT 2.6 ...
  • java解密手机QQ聊天记录

    千次阅读 2016-01-31 13:20:55
    手机QQ聊天记录需要手机root才可以获取到,这是个鸡肋,但是网上还有许多想解密的,还有收费的。...手机单卡常规手机,数据加密方式为待加密数据按位与手机IMEI循环进行异或加密,如果数据为中文,只对中
  • 局域网聊天软件的设计思路

    千次阅读 2012-01-06 17:37:09
    遗憾的 局域网聊天软件 是,那时我们都把这个当成一个joke,充其量回复一句i服了you!,而没有反思使用标准算法的问题。目前来看,在口令保存上,使用最为广泛的算法是标准md5 hash。但实际上,很长时间,我们都...
  • IRC,是常用于linux系统下,使用非常广泛的,古董级别的一种聊天工具,它支持普通的 文本聊天,还有文件传输功能。既然是聊天用的,自然要有客户端软件了。这次的教程,分别讲述了3种客户端软件的使用,包括:xchat...
  • 在本文中,作者介绍了 Pchatbot,这是一个大规模对话数据集,包含分别从微博和司法论坛收集的两个子集。 为了使原始数据集适应对话系统,作者通过匿名化、重复数据删除、分割和过滤等过程精心标准化原始数据集。...
  • 机器人是如何学会和你愉快聊天

    千次阅读 2017-11-22 00:00:00
    到目前,小冰已经覆盖了三种语言:中文、日文、英文,累积了上亿用户,平均聊天的回数23轮,平时聊天时长大概是25分钟左右。 无处不在的自然语言处理 聊天机器人小冰只是自然语言处理...
  • # -*- coding: utf-8 -*- import json ...#汉字不能转义,导致报错,百度了这个方法转换 import sys defaultencoding = 'utf-8' if sys.getdefaultencoding() != defaultencoding: reload(sys) ...
  • 飞秋(FeiQ)是一款局域网聊天传送文件的绿色软件。飞秋参考了飞鸽传书(IPMSG)和QQ,完全兼容飞鸽传书(IPMSG)协议,具有局域网传送方便,速度快,操作简单的...4、可自定义论坛名称和论坛链接地址 5、一些细节部分的优化
  • 在接下来的这一篇文章中,我们将完成一个比较有趣的功能,那就是聊天机器人,可以在你无聊的时候陪你聊天逗你开心。 二、思路分析 在这个实验中,我们将调取小黄鸡官方(http://www.simsimi.com/)提供的API,结合...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 9,193
精华内容 3,677
关键字:

中文聊天论坛