精华内容
下载资源
问答
  • 中文语句中的时间语义识别。即通过分析中文语句,识别出话语中提到的时间。供iOS使用
  • 中文语句的切分 中文语句采用python的第三方组件jieba进行切分 参考:python中文分词组件–jieba import jieba s=u'今年国庆节打算去海南岛度假' cut_s=jieba.cut(s) print('cut_s:',cut_s) l_cut_s=...

    英文语句的切分
    英文语句可以直接采用正则表达式中的split函数进行切分
    参考:python中re.split()的用法

    中文语句的切分
    中文语句采用python的第三方组件jieba进行切分
    参考:python中文分词组件–jieba

    import jieba
    s=u'今年国庆节打算去海南岛度假'
    cut_s=jieba.cut(s)
    print('cut_s:',cut_s)
    l_cut_s=list(cut_s)
    print('l_cut_s:',l_cut_s)
    

    运行结果:

    cut_s: <generator object Tokenizer.cut at 0x0000001663AC00C0>
    l_cut_s: ['今年', '国庆节', '打算', '去', '海南岛', '度假']
    

    说明:
    1.jieba进行切分时,有三种切分模式,默认情况下是上述代码中展示的精确模式,还有全模式、搜索引擎模式。精确模式:jieba.cut(s,cut_all=False)或者jieba.cut(s);全模式:jieba.cut(s,cut_all=True);搜索引擎模式:jieba.cut_for_search(s).
    2.切分后返回值是一个生成器,generator。需转化成list,让其正常显示。

    展开全文
  • 数据库添加中文语句遇到1366错误解决方法 如题,今天在数据库直接插入数据时报了1366错误,通过网上查询的方式了解到是字符集的问题,电脑复制的字符是utf-8类型的,而我数据库设置的默认的为gb2312,可以手动调整...

    数据库添加中文语句遇到1366错误解决方法

    如题,今天在数据库直接插入数据时报了1366错误,通过网上查询的方式了解到是字符集的问题,电脑复制的字符是utf-8类型的,而我数据库设置的默认的为gb2312,可以手动调整数据库表中的字符集
    在这里插入图片描述

    展开全文
  • jdbc连接mysql ,eclipse上sql中文语句报错 原因 1.mysql数据库未设置为utf8 2.eclipse字符编码未设置为utf-8 3.连接mysql的url,未添加“?characterEncoding=utf-8” 4.未配置mysql默认编码为utf8 解决方法 1.检查...

    问题

    jdbc连接mysql ,eclipse上sql中文语句报错

    原因

    1.mysql数据库未设置为utf8
    2.eclipse字符编码未设置为utf-8
    3.连接mysql的url,未添加“?characterEncoding=utf-8”
    4.未配置mysql默认编码为utf8

    解决方法

    1.检查要访问的mysql数据库编码,比如我要访问mysql的mysql1数据库:
    使用sqlyog或者navicat图形界面化工具打开mysql,我这里用sqlyog。

    在要查看的数据库名称上右键->改变表,字符集选为utf8,保存。
    在这里插入图片描述
    2.更改eclipse字符编码设置为utf-8
    ecliose如果汉化了的,窗口->首选项->常规->工作空间,右边找 文本文件编码 ,选其他,改为utf8
    在这里插入图片描述
    3.更改代码里的url
    实例代码:

    package jdbc;
    import java.sql.*;
    public class jdbc {
     
    	public static void main(String[] args) throws Exception {
    		//url加上?characterEncoding=UTF-8
    		String url = "jdbc:mysql://localhost:3306/mysql1?characterEncoding=UTF-8";
    		String user = "root";
    		String password = "1234";
    		String sql = "INSERT INTO mytable1(工作,姓名,年龄)  VALUE ('机械','明天','15');";
    		Class.forName("com.mysql.cj.jdbc.Driver");
    		Connection connection = DriverManager.getConnection(url, user, password);
    		if(connection!=null)
    		{
    			System.out.println("connectiom successful");
    			Statement statement = connection.createStatement();
    			int result = statement.executeUpdate(sql);//
    			System.out.println(result);
    		}
    		else {
    			System.out.println("connection error");
    		}
    	}
    }
    

    4.设置mysql默认编码为utf8
    cmd运行mysql

    $mysql -u root -p
    Enter password: ****
    mysql> show variables like '%char%';
    

    在这里插入图片描述这里character_set_client ,character_set_connection是gbk,要改为utf8.
    找MySQL的配置文件
    windows操作系统 一般在‪C:\Program Files (x86)\MySQL\mysql-5.7.31\my.ini
    Program Files中没有的话,也可能在隐藏文件C:\Program Data\MySQL中
    如果自己安装mysql是更改了安装路径,那一般在配置的mysql安装目录中。
    如果下载的mysql是解压版的一般没有这个文件,那就自行创建一个。

    在原有文件下添加

    [client]
    default-character-set=utf8
    [mysqld]
    default-storage-engine=INNODB
    character-set-server=utf8
    collation-server=utf8_general_ci
    

    保存后,重启mysql服务
    win+r 输入services.msc 确定
    找到MYSQL 重新启动此服务

    再运行mysql查询

    $mysql -u root -p
    Enter password: ****
    mysql> show variables like '%char%';
    

    发现已经完成更改
    在这里插入图片描述
    配置完成!

    展开全文
  • 记录一下,方便以后翻阅~ ...# 描述:计算两个中文语句的相似度,这里给出四种方法 # 日期: 2020年12月09日 import jieba # jieba分词 import difflib # 方法一:Python自带标准库计算相似度的方法,可直接

    记录一下,方便以后翻阅~
    开发环境:PyCharm2019.2.3 社区版
    Python版本:3.8

    主要代码如下:

    # -*- coding: utf-8 -*-
    # 作者:闲人Ne
    # 格言:学到就要教人,赚到就要给人
    # 描述:计算两个中文语句的相似度,这里给出四种方法
    # 日期: 2020年12月09日
    import jieba                  # jieba分词
    import difflib                # 方法一:Python自带标准库计算相似度的方法,可直接用
    from fuzzywuzzy import fuzz   # 方法二:Python自带标准库计算相似度的方法,可直接用
    import numpy as np
    from collections import Counter
    
    # 方法三:编辑距离,又称Levenshtein距离
    def edit_similar(str1, str2):   # str1,str2是分词后的标签列表
        len_str1 = len(str1)
        len_str2 = len(str2)
        taglist = np.zeros((len_str1+1, len_str2+1))
        for a in range(len_str1):
            taglist[a][0] = a
        for a in range(len_str2):
            taglist[0][a] = a
        for i in range(1, len_str1+1):
            for j in range(1, len_str2+1):
                if(str1[i - 1] == str2[j - 1]):
                    temp = 0
                else:
                    temp = 1
                taglist[i][j] = min(taglist[i - 1][j - 1] + temp, taglist[i][j - 1] + 1, taglist[i - 1][j] + 1)
        return 1-taglist[len_str1][len_str2] / max(len_str1, len_str2)
    
    # 方法四:余弦相似度
    def cos_sim(str1, str2):        # str1,str2是分词后的标签列表
        co_str1 = (Counter(str1))
        co_str2 = (Counter(str2))
        p_str1 = []
        p_str2 = []
        for temp in set(str1 + str2):
            p_str1.append(co_str1[temp])
            p_str2.append(co_str2[temp])
        p_str1 = np.array(p_str1)
        p_str2 = np.array(p_str2)
        return p_str1.dot(p_str2) / (np.sqrt(p_str1.dot(p_str1)) * np.sqrt(p_str2.dot(p_str2)))
     
    # 举例说明
    str1 = "现在什么时候了"
    str2 = "什么时候了现在"
    str11 = jieba.lcut(str1)
    str22 = jieba.lcut(str2)
    print('str1=' + str1)     # jieba分词后
    print('str2=' + str2)     # jieba分词后
    diff_result = difflib.SequenceMatcher(None, str1, str2).ratio()
    print('方法一:Python标准库difflib的计算分值:' + str(diff_result))
    print('方法二:Python标准库fuzz的计算分值:' + str(fuzz.ratio(str1, str2)/100))
    print('方法三:编辑距离的计算分值:' + str(edit_similar(str11, str22)))
    print('方法四:余弦相似度的计算分值:' + str(cos_sim(str11, str22)))
    
    # 备注,一般采用几种方法,给每个方法配个权重,算总分,这样比较好!
    
    # —————— Copyright (C)2020 闲人Ne. All Rights Reserved —————— END OF FILE —————— #

    运行结果如下:
    在这里插入图片描述
    课后作业,怎么让运行结果的红色字体不显示?

    展开全文
  • 中文语句中的时间语义识别 author:shinyke github地址:https://github.com/shinyke/Time-NLP/ 本工具是由复旦NLP中的时间分析功能修改而来,做了很多细节和功能的优化,具体如下: 泛指时间的支持,如:早上、...
  • 今天遇到一个小需求,就是将数据库中的某个中文字段翻译成英文,总共有六百多条,直接只用数据库update语句和手动翻译效率很慢。我想这如果可以调用有道翻译API接口将翻译的语句结合原中文字段拼接成update语句,...
  •   尽管现在的很多方法有着很好的正确率,但是对于中文文本的情感分析方面,传统的方法已不能满足现有的需要,因此,本文采用切片循环神经网络(SlicedRecurrent Neural Networks,SRNN)来对文本进行情感分析。...
  • jieba分词为Python第三方库,安装成功后直接调用即可(安装问题可以参考这篇文章) 一. jieba分词的三种模式 1. 精确模式:将句子精确的切开,适合文本分析 2. 全模式:将句子中所有可以成词的词语都扫描出来,速度...
  • mysql_query("set NAMES GBK");
  • [img=https://img-bbs.csdn.net/upload/201312/10/1386650955_362413.jpg... 用的是winpython-3.3.2.3,32位的。在64位的机器上问题一样。 只要有中文就出现图示的问题,把中文去掉则一切正常。是设置问题吗? 谢谢!
  • 如果将上面机器翻译的英文变成中文,那中间形式不就可以认为是句子的意思吗?下面就是基于这一思想的模型实践: 1 以字符而不是词为最小单元(这样就不要进行分词拉),用 N 维向量表示 2 编码器使用LSTM...
  • 问题1: 在使用DML语句在DOS命令窗口插入中文语句时 , DOS命令窗口报错。 从图中可以看到,表格结构没有问题 使用语句: insert into student values(1,’aaa’,999.99); 的时候是可以插入成功的。 使用...
  • 中文分词测试语句

    千次阅读 2019-03-04 12:05:46
    研究生命科学 研究生命令本科生 我从马上下来 我马上下来 北京大学生喝进口红酒 在北京大学生活区喝进口红酒 从小学电脑 从小学毕业 美军中将竟公然说 新建地铁中将禁止商业摊点 这块地面积还真不小 ...
  • 刚刚学习Hql语句就出现这一的问题,百度半天终于解决了,总结一下解决的方案: 出现中文乱码最可能的原因是hibernate配置文件配置的问题 1、检查url路径是否指定字符集为UTF-8 <property name="connection....
  • sql语句中出现中文字符,不管是表名还是字段名,都用反引号括起来。 反引号通常在键盘上数字1键左边。 例: SELECT `建议零售价`, `实际零售价` FROM `商品信息` WHERE `建议零售价` IS NOT NULL AND `实际零售...
  • hibernate中文动态查询语句乱码问题

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 9,915
精华内容 3,966
关键字:

中文语句