精华内容
下载资源
问答
  • franc 是检测文本语言的 JavaScript 库,支持比其他任何库更多的语言,甚至是 Google。 在线演示 标签:Franc
  • 谷歌的语言检测项目(language detection java) 自己转成C#版 VS2010, .net 4.0, 引用vjslib(好像要有J#才有这个类库)。 可以通过减少profiles 里的文件来减少语言,使语言更准确判断。
  • 1.问题的叙述性说明使用Python文本处理。文字有时被包括中国、英语、在日本和其他语言文字,进行处理。...2.程序的代码下面Python是调用langid工具包来对文本进行语言检測与判别的程序代码:import langid ...

    1.问题的叙述性说明

    使用Python文本处理。文字有时被包括中国、英语、在日本和其他语言文字,进行处理。这个时候就须要判别当前文本是属于哪个语系的。

    Python中有个langid工具包提供了此功能。langid眼下支持97种语言的检測,很好用。

    2.程序的代码

    下面Python是调用langid工具包来对文本进行语言检測与判别的程序代码:

    import langid #引入langid模块

    def translate(inputFile, outputFile):

    fin = open(inputFile, 'r') #以读的方式打开输入文件

    fout = open(outputFile, 'w') #以写的方式打开输出文件

    for eachLine in fin: #依次读入每一行

    line = eachLine.strip().decode('utf-8', 'ignore') #去除每行的首位空格等。并统一转化成Unicode

    lineTuple = langid.classify(line) #调用langid来对该行进行语言检測

    if lineTuple[0] == "zh": #假设该行语言大部分为中文,则不进行不论什么处理

    continue

    outstr = line #假设该行语言为非中文,则准备输出

    fout.write(outstr.strip().encode('utf-8') + '\n') #输出非中文的行,从Unicode转化成utf-8输出

    fin.close()

    fout.close()

    if __name__ == '__main__': #相当于main函数

    translate("myInputFile.txt", "myOutputFile.txt")

    以上代码是用来处理一个文本。将不属于中文的行依次输出到一个新的文件。

    3.注意

    第9、10行代码。langid.classify(line)的输出结果是一个二元组,二元组的第一项表示该文本所属的语系,如:zh表示中文、en表示英语、等等;二元组的第二项表示该文本中属于第一项中语系的所占比例。

    希望对大家有所帮助。

    版权声明:本文博客原创文章。博客,未经同意,不得转载。

    展开全文
  • 1.问题的叙述性说明 使用Python文本处理。文字有时被包括中国、英语、在日本和其他语言文字,进行处理。...下面Python是调用langid工具包来对文本进行语言检測与判别的程序代码: import langid...

     1.问题的叙述性说明

    使用Python文本处理。文字有时被包括中国、英语、在日本和其他语言文字,进行处理。这个时候就须要判别当前文本是属于哪个语系的。

    Python中有个langid工具包提供了此功能。langid眼下支持97种语言的检測,很好用。


    2.程序的代码

    下面Python是调用langid工具包来对文本进行语言检測与判别的程序代码:

    import langid                                                         #引入langid模块
    
    def translate(inputFile, outputFile):
    	fin = open(inputFile, 'r')                                    #以读的方式打开输入文件
    	fout = open(outputFile, 'w')                                  #以写的方式打开输出文件
    
    	for eachLine in fin:                                          #依次读入每一行
    		line = eachLine.strip().decode('utf-8', 'ignore')     #去除每行的首位空格等。并统一转化成Unicode
    		lineTuple = langid.classify(line)                     #调用langid来对该行进行语言检測
    		if lineTuple[0] == "zh":                              #假设该行语言大部分为中文,则不进行不论什么处理
    			continue
    
    		outstr = line                                         #假设该行语言为非中文,则准备输出
    		fout.write(outstr.strip().encode('utf-8') + '\n')     #输出非中文的行,从Unicode转化成utf-8输出
    
    	fin.close()
    	fout.close()
    
    if __name__ == '__main__':                                            #相当于main函数
    	translate("myInputFile.txt", "myOutputFile.txt")
    
    		

     以上代码是用来处理一个文本。将不属于中文的行依次输出到一个新的文件。


    3.注意

    第9、10行代码。langid.classify(line)的输出结果是一个二元组,二元组的第一项表示该文本所属的语系,如:zh表示中文、en表示英语、等等;二元组的第二项表示该文本中属于第一项中语系的所占比例。

     

    希望对大家有所帮助。





    版权声明:本文博客原创文章。博客,未经同意,不得转载。

    转载于:https://www.cnblogs.com/zfyouxi/p/4707671.html

    展开全文
  • 语言检测 建立状态 代码覆盖率 版 下载总次数 最低PHP版本 执照 该库可以检测给定文本字符串的语言。 它可以将给定的训练用语在许多不同的惯用法中解析为一系列并用PHP构建一个数据库文件以供检测阶段使用。 然后,...
  • 快速入门:使用文本翻译 API 通过 Java 来检测文本语言Quickstart: Use the Translator Text API to detect text language using Java07/23/2019本文内容本快速入门介绍如何使用 Java 和文本翻译 REST API 来检测所...

    快速入门:使用文本翻译 API 通过 Java 来检测文本语言Quickstart: Use the Translator Text API to detect text language using Java

    07/23/2019

    本文内容

    本快速入门介绍如何使用 Java 和文本翻译 REST API 来检测所提供文本的语言。In this quickstart, you'll learn how to detect the language of provided text using Java and the Translator Text REST API.

    此快速入门需要包含文本翻译资源的 Azure 认知服务帐户。This quickstart requires an Azure Cognitive Services account with a Translator Text resource. 如果没有帐户,可以使用试用帐户获取订阅密钥。If you don't have an account, you can use the trial to get a subscription key.

    提示

    如果你想一次看到所有代码,这个示例的源代码可以在 GitHub 上找到。If you'd like to see all the code at once, the source code for this sample is available on GitHub.

    先决条件Prerequisites

    适用于文本翻译的 Azure 订阅密钥An Azure subscription key for Translator Text

    使用 Gradle 初始化项目Initialize a project with Gradle

    首先,创建此项目的工作目录。Let's start by creating a working directory for this project. 从命令行(或终端)中,运行以下命令:From the command line (or terminal), run this command:

    mkdir detect-sample

    cd detect-sample

    接下来,初始化一个 Gradle 项目。Next, you're going to initialize a Gradle project. 此命令将创建 Gradle 的基本生成文件,最重要的是 build.gradle.kts,它在运行时用来创建并配置应用程序。This command will create essential build files for Gradle, most importantly, the build.gradle.kts, which is used at runtime to create and configure your application. 从工作目录运行以下命令:Run this command from your working directory:

    gradle init --type basic

    当提示你选择一个 DSL 时,选择 Kotlin。When prompted to choose a DSL, select Kotlin.

    配置生成文件Configure the build file

    找到 build.gradle.kts 并使用你喜欢使用的 IDE 或文本编辑器将其打开。Locate build.gradle.kts and open it with your favorite IDE or text editor. 然后将以下生成配置复制到其中:Then copy in this build configuration:

    plugins {

    java

    application

    }

    application {

    mainClassName = "Detect"

    }

    repositories {

    mavenCentral()

    }

    dependencies {

    compile("com.squareup.okhttp:okhttp:2.5.0")

    compile("com.google.code.gson:gson:2.8.5")

    }

    请注意,此示例依赖于 HTTP 请求的 OkHttp 以及 Gson 来处理和分析 JSON。Take note that this sample has dependencies on OkHttp for HTTP requests, and Gson to handle and parse JSON. 如果要详细了解生成配置,请参阅创建新的 Gradle 生成。If you'd like to learn more about build configurations, see Creating New Gradle Builds.

    创建 Java 文件Create a Java file

    为示例应用创建一个文件夹。Let's create a folder for your sample app. 从工作目录中,运行:From your working directory, run:

    mkdir -p src/main/java

    接下来,在此文件夹中,创建一个名为 Detect.java 的文件。Next, in this folder, create a file named Detect.java.

    导入所需的库Import required libraries

    打开 Detect.java 并添加以下 import 语句:Open Detect.java and add these import statements:

    import java.io.*;

    import java.net.*;

    import java.util.*;

    import com.google.gson.*;

    import com.squareup.okhttp.*;

    定义变量Define variables

    首先,为你的项目创建一个公共类:First, you'll need to create a public class for your project:

    public class Detect {

    // All project code goes here...

    }

    将以下行添加到 Detect 类:Add these lines to the Detect class:

    String subscriptionKey = "YOUR_SUBSCRIPTION_KEY";

    String url = "https://api.translator.azure.cn/detect?api-version=3.0";

    如果使用的是认知服务多服务订阅,则还必须在请求参数中包括 Ocp-Apim-Subscription-Region。If you are using a Cognitive Services multi-service subscription, you must also include the Ocp-Apim-Subscription-Region in your request parameters.

    创建客户端并生成请求Create a client and build a request

    将以下行添加到 Detect 类来实例化 OkHttpClient:Add this line to the Detect class to instantiate the OkHttpClient:

    // Instantiates the OkHttpClient.

    OkHttpClient client = new OkHttpClient();

    接下来,我们将生成 POST 请求。Next, let's build the POST request. 可随意更改进行语言检测的文本。Feel free to change the text for language detection.

    // This function performs a POST request.

    public String Post() throws IOException {

    MediaType mediaType = MediaType.parse("application/json");

    RequestBody body = RequestBody.create(mediaType,

    "[{\n\t\"Text\": \"Salve mondo!\"\n}]");

    Request request = new Request.Builder()

    .url(url).post(body)

    .addHeader("Ocp-Apim-Subscription-Key", subscriptionKey)

    .addHeader("Ocp-Apim-Subscription-Region", "your region")

    .addHeader("Content-type", "application/json").build();

    Response response = client.newCall(request).execute();

    return response.body().string();

    }

    创建一个函数来分析响应Create a function to parse the response

    这个简单的函数分析来自文本翻译服务的 JSON 响应并对其进行美化。This simple function parses and prettifies the JSON response from the Translator Text service.

    // This function prettifies the json response.

    public static String prettify(String json_text) {

    JsonParser parser = new JsonParser();

    JsonElement json = parser.parse(json_text);

    Gson gson = new GsonBuilder().setPrettyPrinting().create();

    return gson.toJson(json);

    }

    将其放在一起Put it all together

    最后一步是发出请求并获得响应。The last step is to make a request and get a response. 将以下行添加你的项目:Add these lines to your project:

    public static void main(String[] args) {

    try {

    Detect detectRequest = new Detect();

    String response = detectRequest.Post();

    System.out.println(prettify(response));

    } catch (Exception e) {

    System.out.println(e);

    }

    }

    运行示例应用Run the sample app

    上述操作完成后,就可以运行示例应用了。That's it, you're ready to run your sample app. 从命令行(或终端会话)导航到工作目录的根,然后运行以下命令:From the command line (or terminal session), navigate to the root of your working directory and run:

    gradle build

    当生成完成后,请运行:When the build completes, run:

    gradle run

    示例响应Sample response

    请在此语言列表中查找国家/地区缩写。Find the country/region abbreviation in this list of languages.

    [

    {

    "language": "it",

    "score": 1.0,

    "isTranslationSupported": true,

    "isTransliterationSupported": false,

    "alternatives": [

    {

    "language": "pt",

    "score": 1.0,

    "isTranslationSupported": true,

    "isTransliterationSupported": false

    },

    {

    "language": "en",

    "score": 1.0,

    "isTranslationSupported": true,

    "isTransliterationSupported": false

    }

    ]

    }

    ]

    后续步骤Next steps

    查看 API 参考,了解使用文本翻译 API 可以执行的所有操作。Take a look at the API reference to understand everything you can do with the Translator Text API.

    另请参阅See also

    展开全文
  • 1.问题的描述 用Python进行文本处理时,有时候处理的文本中包含中文、英文、日文等多个语系的文本,有时候不能同时进行处理,这...以下Python是调用langid工具包来对文本进行语言检测与判别的程序代码: import langid

     1.问题的描述

    用Python进行文本处理时,有时候处理的文本中包含中文、英文、日文等多个语系的文本,有时候不能同时进行处理,这个时候就需要判别当前文本是属于哪个语系的。Python中有个langid工具包提供了此功能,langid目前支持97种语言的检测,非常好用。


    2.程序的代码

    以下Python是调用langid工具包来对文本进行语言检测与判别的程序代码:

    import langid                                                         #引入langid模块
    
    def translate(inputFile, outputFile):
    	fin = open(inputFile, 'r')                                    #以读的方式打开输入文件
    	fout = open(outputFile, 'w')                                  #以写的方式打开输出文件
    
    	for eachLine in fin:                                          #依次读入每一行
    		line = eachLine.strip().decode('utf-8', 'ignore')     #去除每行的首位空格等,并统一转化成Unicode
    		lineTuple = langid.classify(line)                     #调用langid来对该行进行语言检测
    		if lineTuple[0] == "zh":                              #如果该行语言大部分为中文,则不进行任何处理
    			continue
    
    		outstr = line                                         #如果该行语言为非中文,则准备输出
    		fout.write(outstr.strip().encode('utf-8') + '\n')     #输出非中文的行,从Unicode转化成utf-8输出
    
    	fin.close()
    	fout.close()
    
    if __name__ == '__main__':                                            #相当于main函数
    	translate("myInputFile.txt", "myOutputFile.txt")
    
    		

     以上代码是用来处理一个文本,将不属于中文的行依次输出到一个新的文件。


    3.注意

    第9、10行代码,langid.classify(line)的输出结果是一个二元组,二元组的第一项表示该文本所属的语系,如:zh表示中文、en表示英语、等等;二元组的第二项表示该文本中属于第一项中语系的所占比例。

     

    希望对大家有所帮助。





    展开全文
  • language_detector:检测文本样本的语言
  • 该库试图解决非常短的单词和短语甚至比tweet短的语言检测 利用统计和基于规则的方法 超过70种语言的性能优于Apache Tika , Apache OpenNLP和Optimaize Language Detector 可在每个Java 6+应用程序中以及在Android...
  • lingua-rs:Rust Rust生态系统中最准确的自然语言检测库,适用于长文本和短文本
  • 文本检测

    2021-03-31 23:31:58
    相比其他目标检测任务,文本目标的长宽比变化大、具有方向性(弯曲) 一、 趋势 1、矩形->四边形 2、英文->多语言 3、端对端->语义、NLP 二、归类 1. 基于回归 CPTN:FRCN+LSTM,空间+时序,优点:...
  • lingua-go Go生态系统中最准确的自然语言检测库,适用于长文本和短文本 该项目正在建设中。 尚未计划第一个版本。 目前,请查看Lingua的或实现以获取更多信息。
  • 在这个链接这里介绍了和文本相似度检测有关的:https://paperswithcode.com/task/semantic-textual-similarity paperwithcode是一个很好的网站 然后github上关于Semantic Textual Similarity的信息综合帖,...
  • whatlanguage, 一种使用bloom过滤器实现速度的ruby 语言检测库 whatlanguage由 Peter Cooper文本语言检测。快速。快速。内存高效且全部为纯 ruby 。 针对上述速度和内存优势使用Bloom过滤器。 它适用于长度超过 10个...
  • 《跨语言文本相似性检测》第一周—前期调研 文本相似度计算在信息检索、数据挖掘、机器翻译、文档复制检测等领域有着广泛的应用。   文本相似性流程 分词——>权重——>选择相应算法     文本相似性检测...
  • 数据集下载 - ICDAR 2019多语言场景文本检测和识别的强大阅读挑战 在训练数据集下方下载每个任务的相关基础事实。 您可能还想阅读本页末尾的“常见问题解答”部分。 任务1:多脚本文本检测 训练集: 训练集由10...
  • 本文主要向大家介绍了机器学习入门之使用gensim 的 doc2vec 实现文本相似度检测,通过具体的内容向大家展现,希望对大家学习机器学习入门有所帮助。环境Python3,gensim,jieba,numpy,pandas原理:文章转成向量,...
  • 因此,你可以用下面的两个特性去检测一行文本语言: 单个字符的重复性 字符串的重复性 实际上,这两个特性浓缩到了一个特性中:字符串的顺序。单个字符的重复性只是字符串的重复性。 快速知识补充:在计算机语言学...
  • 如果您已阅读完第 1 部分,如何使用 Elasticsearch 6.2 搜索中文、日语和韩语文本 - 第 2 部分:多字段介绍了通过多字段对以多种语言编写的文档进行索引和搜索的方法。然而,如果不管任何语言,我们都将文本存储在四...
  • 要使用ElasticSearch的多语言索引及搜索功能,首先我们得检测原始文档所使用过的语言。ElasticSearch官网推荐使用MikeMcCandless 在Github上创建的chromium-compact-language-detector (URL地址:...
  • 【NLP】文本语种检测

    2020-06-10 21:52:09
    langid ...特点 ...检测接口 classify rank >>> import langid # classify 输出最可能的语言 >>> langid.classify("I do not speak english") ('en', 0.57133487679900674) >>
  • 文本检测(Text Detection)和识别是计算机视觉领域中的两个主要问题,需要从图像中找到自然语言文本的位置并识别出具体的内容,在体育视频分析,自动驾驶,工业自动化等领域具有广泛的应用。随着深度学习的发展,...
  • 文本语种检测---langid

    2021-01-26 11:25:05
    langid github源码:https://github.com/saffsd/langid.py 特点 支持97中语言滤过速度快准确率高不支持中文繁体(香港),中文繁体(台湾) 检测接口 classify rank >>> import langid...
  • Google语言检测工具(language-detection),版本号:03-03-2014. 该版本优化了短文本(10-20 char)的识别,支持47种语言。
  • 任务-ICDAR 2019多语言场景文本检测和识别的稳健阅读挑战 为了参加RRC-MLT-2019挑战赛,您必须至少参加一项任务。这是任务的描述。前三个任务与RRC-MLT-2017中的任务相似,但针对RRC-MLT-2019重新打开了它们,为...
  • 检测文本语言。 法郎有什么好看的? franc可以支持比其他任何库更多的语言(†) 法郎打包带支持 , ,或种语言 franc有一个CLI †-根据 ,这是世界上翻译最多的文件。 法郎有什么不好的? franc支持多种语言...
  • 在然语言中,文本检测作为字面匹配、语义匹配、文本相似度和文本匹配等应用的基础模块。编辑距离的计算可以说是作为文本检测的基础,它可以完成一些要求度低的作业。 字面匹配 编辑距离属于字面匹配,是低级的匹配...
  • 自然场景文本检测识别技术综述

    千次阅读 2018-07-19 08:32:23
    番外青蛇: 姐, 图像文本检测和识别领域现在的研究热点是什么? 白蛇: 白纸黑字的扫描文档识别技术已经很成熟,而自然场景图像文本识别的效果还不理想。倾斜字、艺术字、变形字、模糊字、形似字、残缺字、光影遮蔽、...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,126
精华内容 450
关键字:

文本语言检测