精华内容
下载资源
问答
  • ToTTo:受控的表到文本生成数据集

    千次阅读 2021-02-08 17:45:00
    文 / Ankur Parikh 和 Xuezhi Wang,Google Research 研究员在过去几年中,自然语言生成 (Neural Language Generation, N...

    文 / Ankur Parikh 和 Xuezhi Wang,Google Research 研究员

    在过去几年中,自然语言生成 (Neural Language Generation, NLG) 方向取得了很大的进步,相关的研究已被应用在生成文本摘要等任务中。然而,尽管神经网络已可以生成流畅的文本,但仍然容易产生幻觉(Hallucination,如:生成通顺但与原文不相关的内容),导致无法将这些系统部署在对准确性有较高要求的许多场景。

    • 幻觉
      https://arxiv.org/abs/1707.08052

    以 Wikibio 数据集为例,向神经基线模型分配一个任务,使其总结比利时足球运动员 Constant Vanden Stock 的 Wikipedia 信息框内容,但该模型得出了他是一名美国花样滑冰运动员错误结论

    • Wikibio 数据集
      https://arxiv.org/abs/1603.07771

    • 基线模型
      https://arxiv.org/abs/1704.04368

    评估所生成文本对源内容契合程度非常具有挑战性,但如果将源内容结构化(例如,以表格形式),那么这一过程在一定程度上会变得容易一些。此外,结构化数据还可以测试模型的推理能力和数字推断能力。但现有的大规模结构化数据集往往含有噪声(即无法完全根据表格式数据推断出作为参考的句子),因此无法通过现有数据集对模型开发中的幻觉进行客观测量。

    在“ToTTo:受控的表到文本生成数据集”(ToTTo: A Controlled Table-to-Text Generation Dataset) 一文中,我们提出了一个开放域表到文本生成数据集,并使用全新的注释处理方式(通过句子修订)以及一个用于评估模型幻觉的受控文本生成任务构建该数据集。

    • ToTTo:受控的表到文本生成数据集
      https://arxiv.org/abs/2004.14373

    ToTTo 为“Table-To-Text”(表到文本)的缩写,包含训练样本 121,000 个,以及用于开发和测试的样本各 7,500 个。由于注释的准确性,此数据集适合作为高精度文本生成研究中的挑战性 benchmark。数据集和代码已在我们的 GitHub 仓库上开源。

    • GitHub 仓库
      https://github.com/google-research-datasets/totto

    表到文本生成

    ToTTo 引入了一项受控的 (Controlled) 生成任务,在该任务中,将包含一组选定单元格的 Wikipedia 表用作源材料,生成一句话总结表中的单元格内容。下方示例说明了该任务中的挑战,如数字推理、大型开放域词汇表和不同的表结构等。

    例如,在此 ToTTo 数据集中,给定源表及其中突出显示的单元格集(左侧),目标则是生成一句话,如“目标句子”(右侧)。请注意,生成目标句子需要进行数字推断(十一个 NFL 赛季)并理解 NFL(美国国家橄榄球联盟) 领域

    注释策略

    设计一种根据表格数据注释出自然且简明的句子极具挑战性。一种办法是:如 Wikibio 和 RotoWire 等许多数据集会启发式地将自然生成的文本与表配对,但是这个过程会引入噪声,因此很难区分幻觉主要是由数据噪声还是模型缺陷导致的。另一种办法是:让标注者从头开始编写契合表内容的目标句子,但这样得到的目标句子在结构和风格方面往往缺乏多样性。

    相比之下,ToTTo 使用一种全新的数据注释策略,标注者分阶段修订现有的 Wikipedia 句子。这样一来,目标句子就能变得简洁自然,同时表现出有趣多样的语言特性。

    数据收集和注释处理的第一步是从 Wikipedia 收集表。在这一步中,给定表会启发式地与相关页面上下文的总结句配对,如页面文本和表之间单词重叠以及引用表格数据的超链接。此总结句可能包含表上没有的信息,也可能包含所指示先行词仅存在于表中(而非句子本身)的代词。

    然后,标注者会突出显示表中与总结句相关的单元格,并删除该句中与表无关的短语。标注者还会对句子进行去语境化处理(例如,正确替换/定向代词),以便根据需要生成语法正确的独立句子。

    我们的研究表明,标注者在上述任务中能够实现高度一致:突出显示的单元格的 Fleiss Kappa 为 0.856,最终目标句子的 BLEU 为 67.0。

    数据集分析

    我们对 ToTTo 数据集中超过 44 个类别进行了主题分析,发现体育和国家/地区主题包含一系列细粒度主题,例如体育中的足球/奥林匹克主题以及国家/地区中的人口/建筑物主题,总共占数据集的 56.4%。另外的 44% 的主题范围更广泛,包括表演艺术、交通与娱乐。

    此外,我们还随机选取了 100 多个样本,对数据集中不同类型的语言现象展开人工分析。下表汇总了部分需要参考页面和分区标题的样本,以及数据集中可能会对当前系统构成全新挑战的一些语言现象。

    语言现象百分比
    需要参考页面标题82%
    需要参考分区标题19%
    需要参考表说明3%
    推理(逻辑、数字、时间等)21%
    跨行/列/单元格比较13%
    需要背景信息12%

    基线模型结果

    我们列出了文献中三个最先进模型(BERT-to-BERT、 Pointer Generator 和 Puduppully 于 2019 发表的模型)在两个评估指标 BLEU 和 PARENT 上的一些基线结果。除了报告基于整个测试集的分数外,我们还基于一个更具挑战性的子集(由域外样本组成)评估了每个模型。如下表所示,BERT-to-BERT 模型在 BLEU 和 PARENT 这两个指标上的表现都优于其他两个模型。此外,所有模型在挑战性子集上的表现都相当不理想,这表示域外泛化仍具挑战性。


    BLEUPARENTBLEUPARENT
    模型总体总体挑战挑战
    BERT-to-BERT43.952.634.846.7
    Pointer Generator41.651.632.245.2
    Puduppully 等人于 2019 年发表的模型19.229.213.925.8

    • BERT-to-BERT
      https://arxiv.org/abs/1907.12461

    • Pointer Generator 
      https://arxiv.org/abs/1704.04368

    • Puduppully 于 2019 发表的模型
      https://arxiv.org/abs/1809.00582

       

    虽然自动指标可以在一定程度上表明性能,但目前尚不足以评估文本生成系统中的幻象。为更好地理解幻象,我们假设差异表示幻象,并在此前提下手动评估最高性能基线,以确定目标句子对源表内容的忠实度。为计算“专家”性能,我们为多参考测试集中的各个样本设定一个参考模型,并要求标注者比较该样本与其他参考模型的忠实度。如结果所示,最高性能基线下,出现幻象信息的概率约为 20%。

     忠实度忠实度
    模型(总体)(挑战)
    专家93.691.4
    BERT-to-BERT76.274.2

    模型错误与挑战

    下表列出了观察到的模型错误,重点说明 ToTTo 数据集的一些更具挑战性的方面。我们发现,即便使用简洁明了的参考,最先进的模型在应对幻觉、数字推理和罕见主题时仍会遇到困难(以红色标记的错误)。最后一个示例表明,即使模型输出正确,有时也无法像原始参考(包含更多表相关推理,以蓝色显示)那样信息丰富。

    参考模型预测
    在 1939 年库里杯中,西部省在开普敦以 17–6 的比分输给了德兰士瓦。第一届库里杯于 1939 年在新大陆德兰士瓦 1 举行,西部省以 17–6 的比分赢得了比赛。
    IBM 公司在 2000 年发布了第二代微型硬盘,其容量增加到 512 MB 和 1 GB。2000 年有 512 块微型硬盘模型:1 千兆字节。
    1956 年世界摩托车锦标赛赛季包括 6 场大奖赛,每场包含 5 个级别:500cc、350cc、250cc、125cc 和边车 500cc。1956 年世界摩托车锦标赛赛季包括 8 场大奖赛,每场包含 5 个级别:500cc、350cc、250cc、125cc 和边车 500cc。
    在 Travis Kelce 的最后一个大学赛季中,他在接球次数 (45)、接球码数 (722)、单次接球码数 (16.0) 和接球达阵次数 (8) 方面创下了个人的职业生涯记录。Travis Kelce 以 45 次,共计 722 码(平均为 16.0 码)的接球和 8 次达阵结束了 2012 年赛季。

    结论

    在这项研究中,我们提出了 ToTTo,这是一个表到文本的大型英语数据集,不仅会提供受控的生成任务,还会提供基于迭代句子修订的数据注释处理。我们还提供了几个最先进的基线,并证明了 ToTTo 数据集有助于研究建模以及开发可更好地检测模型改进情况的评估指标。

    除了提及的任务,我们希望我们的数据集也可以为其他任务提供帮助,如表理解和句子修订等。您可通过我们的 GitHub 仓库获取 ToTTo。

    • GitHub 仓库(或“阅读原文”)
      https://github.com/google-research-datasets/totto

    致谢

    作者要感谢 Ming-Wei Chang、Jonathan H. Clark、Kenton Lee 和 Jennimaria Palomaki 提供的深刻探讨和支持。同时非常感谢 Ashwin Kakarla 及其团队在注释工作中的帮助。

    更多 AI 相关阅读:

     点击屏末 | 阅读原文 | 即刻访问 GitHub

    展开全文
  • 关于文本生成数据集记录

    千次阅读 2018-07-17 17:18:18
    摘要数据集 cnn/dailymail Gigaword Gigaword corpus [Graff and Cieri, 2003] preprocessed identically to [Rush et al., 2015], which leads to around 3.8M training samples, 190K validation samples and ...

    摘要数据集

    cnn/dailymail

    Gigaword
    Gigaword corpus [Graff and Cieri, 2003] preprocessed identically to [Rush et al., 2015], which leads to around 3.8M training samples, 190K validation samples and 1951 test samples for evaluation. The input summary pairs consist of the head- line and the first sentence of the source articles.

    中文摘要数据集
    a large corpus of Chinese short text summarization (LCSTS) dataset [Hu et al., 2015] collected and constructed from the Chinese microblogging website Sina Weibo.

    散文生成数据集

    数据集和代码地址
    论文:Topic-to-Essay Generation with Neural Networks
    数据集介绍:
    In order to guarantee the quality of the crawled text, we only crawl the compositions which contain some reviews and scores. The process of the data collection is summarized as follows: a) We crawl 228,110 articles, which have high scores. b) We choose paragraphs composed of 50 to 120 words to be our corpus from these articles. c) We follow [Wang et al., 2016b] and also employ TextRank [Mihalcea and Tarau, 2004] to extract keywords as topic words. In the end, we obtain 305,000 paragraph-level essays and randomly select 300,000 as training set and 5,000 as test set. We name this dataset as ESSAY
    ZhiHu:
    In this paper, we also find some articles that conform to our requirements on ZhiHu, a Chinese question-and-answer website, where questions are created, answered, edited and organized by users in the community. In particular, users also give the topic words of each article. Based on the information mentioned above, we crawl a large number of Zhihu’ articles and corresponding topic words. Referring

    展开全文
  • DP-SeqGAN通过生成对抗网络自动提取数据集的重要特征并生成与原数据分布接近的新数据集,基于差分隐私对模型做随机加扰以提高生成数据集的隐私性,并进一步降低鉴别器过拟合。DP-SeqGAN 具有直观通用性,无须对具体...
  • cnews中文文本分类数据集;由清华大学根据新浪新闻RSS订阅频道2005-2011年间的历史 数据筛选过滤生成,训练过程见我的博客;
  • 因此,图像文本识别能够将图像中的文本区域转化成计算机可以读取和编辑的符号,打通了从图像到文本再到信息的通路。 随着计算机算力的提升,基于深度学习方法的本文识别技术逐渐成为主流,而深度学习中数...

    代码地址如下:
    http://www.demodashi.com/demo/14792.html

    一、开发背景

    图像中的文本识别近几年来备受瞩目。通常来说,图片中的文本能够比图片中其他内容提供更加丰富的信息。因此,图像文本识别能够将图像中的文本区域转化成计算机可以读取和编辑的符号,打通了从图像到文本再到信息的通路。

    随着计算机算力的提升,基于深度学习方法的本文识别技术逐渐成为主流,而深度学习中数据集的获取是重中之重。本脚本实现读取语料集中的文本内容,以保存为图像形式的数据集,用于模型训练。

    二、脚本效果

    1、IDE中的运行界面

    (1)选择字体文件

    (2)生成数据集

    2、生成的图像

    不使用数据增强


    使用数据增强



    3、映射表

    存储图像文件名和类别序列标注的对应关系

    三、具体开发

    1、功能需求

    1. 根据用户指定的语料数据生成图像文件及映射表
    2. 用户可自行更改文本长度,图像数量及图像尺寸
    3. 用户可自行选择是否进行增强处理

    2、实际项目

    1. 项目结构

    (1)根目录下的fonts文件夹用于存放ttf字体文件, imageset文件夹用于存放输出图像和映射表
    (2)config中设置相关参数并存放语料文件, dict5990.txt是字典, sentences.txt是语料集

    2. 实现思路

    3. 代码实现

    1. 设置参数
    # 语料集
    corpus = 'config/sentences.txt'
    dict = 'config/dict5990.txt'
    
    # 字体文件路径
    FONT_PATH = 'fonts/'
    
    # 输出路径
    OUTPUT_DIR = 'imageset/'
    
    # 样本总数
    n_samples = 50
    # 每行最大长度
    sentence_lim = 10
    # 画布能容纳的最大序列长度,对应img_w
    canvas_lim = 50
    
    2. 构建生成器

    1. 加载字体文件

    # 选择字体
    root = tk.Tk()
    root.withdraw()
    self.font_path = filedialog.askopenfilename()
    		
    def load_fonts(self, factor, font_path):
    	""" 加载字体文件并设定字体大小
            """
    	self.fonts = []
    	# 加载字体文件
    	font = ImageFont.truetype(font_path, int(self.img_h*factor), 0)
    	self.fonts.append(font)
    

    2. 构建字典

    def build_dict(self):
    	""" 打开字典,加载全部字符到list
                每行是一个字
            """
    	with codecs.open(self.dictfile, mode='r', encoding='utf-8') as f:
    		# 按行读取语料
    		for line in f:
    			# 当前行单词去除结尾,为了正常读取空格,第一行两个空格
    			word = line.strip('\r\n')
    			# 只要没超出上限就继续添加单词
    			self.dict.append(word)
    			# 最后一位作为空白符
    			self.blank_label = len(self.dict)
    

    3. 加载语料

    def build_train_list(self, num_rows, max_row_len=None):
    	# 过滤语料,留下适合的内容组成训练list
    	assert max_row_len <= self.img_lim
    	self.num_rows = num_rows
    	self.max_row_len = max_row_len
    	sentence_list = []
    	self.train_list = []
    	
    	with codecs.open(self.corpus_file, mode='r', encoding='utf-8') as f:
    		# 按行读取语料
    		for line in f:
    			sentence = line.rstrip().replace(' ', '')  # 当前行单词
    			if len(sentence) <= max_row_len and len(sentence_list) < num_rows:
    				# 只要句子长度不超过画布上限且句子数量没超出上限就继续添加
                        sentence_list.append(sentence)
    			elif len(sentence) > max_row_len and len(sentence_list) < num_rows:
                    # 截断句子
                    sentence_list.append(sentence[0:max_row_len])
    
    	if len(sentence_list) < self.num_rows:
    		raise IOError('语料不够')
    
    	for i, sentence in enumerate(sentence_list):
    		# 遍历语料中的每一句(行)
    		# 将单词分成字符,然后找到每个字符对应的整数ID list
    		label_sequence = []
    		for j, word in enumerate(sentence):  # 检查句子中是否包含生僻字
    			try:
    				index = self.dict.index(word)
    				label_sequence.append(index)
    			except ValueError:
    				print("字典不包含:{},已忽略".format(word))
    				sentence_list[i] = sentence_list[i][0:j] + sentence_list[i][j+1:]  # 从该句中删除生僻字
    
    	self.train_list = sentence_list  # 过滤后的训练集
    	np.random.shuffle(self.train_list)  # 打乱顺序
    

    4. 保存映射表

    def mapping_list(self):
    	# 写图像文件名和类别序列的对照表
    	file_path = os.path.join(cfg.OUTPUT_DIR, 'map_list.txt')
    	with codecs.open(file_path, mode='w', encoding='utf-8') as f:
    		for i in range(len(self.train_list)):
    			f.write("{}.png {} \n".format(i, self.train_list[i]))
    

    5. 绘制图像

        def paint_text(self, text, i):
            """ 使用PIL绘制文本图像,传入画布尺寸,返回文本图像
            :param h: 画布高度
            :param w: 画布宽度
            """
            # 创建画布
            canvas = np.zeros(shape=(self.img_h, self.img_w), dtype=np.uint8)
            canvas[0:] = 255
            # 转换图像模式,保证合成的两张图尺寸模式一致
            ndimg = Image.fromarray(canvas).convert('RGBA')
            draw = ImageDraw.Draw(ndimg)
    
            font = self.fonts[-1]
            text_size = font.getsize(text)  # 获取当前字体下的文本区域大小
    
            # 自动调整字体大小避免超出边界, 至少留白水平20%
            margin = [self.img_w - int(0.2*self.img_w), self.img_h - int(0.2*self.img_h)]
            while (text_size[0] > margin[0]) or (text_size[1] > margin[1]):
                self.font_factor -= 0.1
                self.load_fonts(self.font_factor, self.font_path)
                font = self.fonts[-1]
                text_size = font.getsize(text)
    
            # 随机平移
            horizontal_space = self.img_w - text_size[0]
            vertical_space = self.img_h - text_size[1]
            start_x = np.random.randint(2, horizontal_space-2)
            start_y = np.random.randint(2, vertical_space-2)
    
            # 绘制当前文本行
            draw.text((start_x, start_y), text, font=font, fill=(0, 0, 0, 255))
            img_array = np.array(ndimg)
    
            # 转灰度图
            grey_img = img_array[:, :, 0]  # [32, 256, 4]
            if self.aug == True:
                auged = augmentation(grey_img)
                ndimg = Image.fromarray(auged).convert('RGBA')
    
            save_path = os.path.join(cfg.OUTPUT_DIR, '{}.png'.format(i))  # 类别序列即文件名
            ndimg.save(save_path)
    

    6. 数据增强

    def speckle(img):
        severity = np.random.uniform(0, 0.6*255)
        blur = ndimage.gaussian_filter(np.random.randn(*img.shape) * severity, 1)
        img_speck = (img + blur)
        img_speck[img_speck > 255] = 255
        img_speck[img_speck <= 0] = 0
        return img_speck
    
    
    def augmentation(img, ):
        # 不能直接在原始image上改动
        image = img.copy()
        img_h, img_w = img.shape
        mode = np.random.randint(0, 9)
        '''添加随机模糊和噪声'''
        # 高斯模糊
        if mode == 0:
            image = cv2.GaussianBlur(image,(5, 5), np.random.randint(1, 10))
    
        # 模糊后二值化,虚化边缘
        if mode == 1:
            image = cv2.GaussianBlur(image, (9, 9), np.random.randint(1, 8))
            ret, th = cv2.threshold(img, 0, 255, cv2.THRESH_BINARY+cv2.THRESH_OTSU)
            thresh = image.copy()
            thresh[thresh >= th] = 0
            thresh[thresh < th] = 255
            image = thresh
    
        # 横线干扰
        if mode == 2:
            for i in range(0, img_w, 2):
                cv2.line(image, (0, i), (img_w, i), 0, 1)
    
        # 竖线
        if mode == 3:
            for i in range(0, img_w, 2):
                cv2.line(image, (i, 0), (i, img_h), 0, 1)
    
        # 十字线
        if mode == 4:
            for i in range(0, img_h, 2):
                cv2.line(image, (0, i), (img_w, i), 0, 1)
            for i in range(0, img_w, 2):
                cv2.line(image, (i, 0), (i, img_h), 0, 1)
    
        # 左右运动模糊
        if mode == 5:
            kernel_size = 5
            kernel_motion_blur = np.zeros((kernel_size, kernel_size))
            kernel_motion_blur[int((kernel_size - 1) / 2), :] = np.ones(kernel_size)
            kernel_motion_blur = kernel_motion_blur / kernel_size
            image = cv2.filter2D(image, -1, kernel_motion_blur)
    
        # 上下运动模糊
        if mode == 6:
            kernel_size = 9
            kernel_motion_blur = np.zeros((kernel_size, kernel_size))
            kernel_motion_blur[:, int((kernel_size - 1) / 2)] = np.ones(kernel_size)
            kernel_motion_blur = kernel_motion_blur / kernel_size
            image = cv2.filter2D(image, -1, kernel_motion_blur)
    
        # 高斯噪声
        if mode == 7:
            row, col = [img_h, img_w]
            mean = 0
            sigma = 1
            gauss = np.random.normal(mean, sigma, (row, col))
            gauss = gauss.reshape(row, col)
            noisy = image + gauss
            image = noisy.astype(np.uint8)
    
        # 污迹
        if mode == 8:
            image = speckle(image)
        return image
    

    4. 使用说明

    运行sample_generator.py后会跳出对话框, 选择字体文件即可生成数据集
    从文本到图像——文本识别数据集生成器

    代码地址如下:
    http://www.demodashi.com/demo/14792.html

    注:本文著作权归作者,由demo大师发表,拒绝转载,转载需要作者授权

    展开全文
  • 只需几行代码,即可在任何文本数据集上轻松训练您自己的任意大小和复杂度的文本生成神经网络,或使用预先训练的模型快速训练文本。 textgenrnn是上的顶部一个Python 3模块 / 用于创建 S,与许多凉爽特性: 一种...
  • 医疗文本数据集-nlp

    千次阅读 2019-06-24 14:49:25
    1. CCHMC 数据来自辛辛那提儿童医院医学中心放射科(Cincinnati Children s Hospital Medical Center’s Department of Radiology,CCHMC)。CCHMC的机构审查委员会批准了数据的...这些数据是最常用的数据之一,它...

     

    1. CCHMC

    数据来自辛辛那提儿童医院医学中心放射科(Cincinnati Children s Hospital Medical Center’s Department of Radiology,CCHMC)。CCHMC的机构审查委员会批准了数据的发布。采用bootstrap方法对所有门诊x线胸片和再胸片进行为期一年的采样(Walters, 2004)。这些数据是最常用的数据之一,它们的设计提供了足够的代码来涵盖儿科放射学活动的实质比例。为了达到HIPAA标准,消除歧义包括三个步骤:消除歧义。

     

     

    2. MIMIC

    麻省理工学院计算生理学实验室开发的一个公开可用的数据集,包括与约40,000名重症监护患者相关的未识别的健康数据。它包括人口统计、生命体征、实验室检测、药物治疗等。最新版本的MIMIC是MIMIC- iii v1.4,包括38645名成年人和7875名新生儿的5.8万多所医院入院。数据跨度为2001年6月至2012年10月。

    展开全文
  • 想要学习自动摘要的数据集,可以从这进行下载。里面有生成好的自动摘要
  • Oxford花卉数据加文本描述数据集,用来文本生成图像的训练数据集,102flower是8189张英国花卉图像数据集,text_c10中共8189*10条文本,文本对应每张花卉图像,一张图像有十条描述文本。
  • 只需几行代码,即可在任何文本数据集上轻松训练您自己的任意大小和复杂度的文本生成神经网络,或者使用预先训练的模型快速训练文本。 textgenrnn是上的顶部一个Python 3模块 / 用于创建 S,与许多凉爽特性: 一种...
  • 前言 年份 数据集简称 语言 模态 单轮/多轮 对话(Dialog)个数 句子(Utterance)数 角色(Speaker)数
  • nicai文本生成 08 12:58:06 CST 2018-数据集
  • 为了解决抽取式摘要方法缺少训练数据的问题,已有方法通常将用于生成文本摘要的数据集进行简单转换,例如, Cheng等【参考文献6】将CNN/ Daily Mail数据集中的每篇文本中句子与生成式摘要句计算匹配度,匹配度较高...
  • 易语言随机文本自动生成源码,随机文本自动生成,取随机汉字,取随机字符
  • 基于Pytorch的中文文本摘要生成 开这个仓库的主要目的是记录一下自己实验过程和数据。 参考文本摘要领域大佬写的两篇论文: and ,然后参考另一位大佬修改的代码. 另外,在这里还是要感谢一下。这里的所有内容基本上...
  • 该代码是CVPR2018一篇关于文本到图像合成的文章,经过测试可以使用
  • 二、根据txt文件自动生生成filename,label列表数据: 一、根据文件夹自动生成带label的txt文件: 这是用于给图片打标签并生成txt文件的程序; creat_labeled_txt 给三级目录里的文件打标签,并且标签根据第二...
  • OCR数据集生成利器—TextRecognitionDataGenerator

    千次阅读 多人点赞 2020-10-31 17:16:04
    本文主要介绍通过开源项目TextRecognitionDataGenerator生成定制OCR数据集,用于训练模型和测试模型效果,达到特定场景下识别的优化。 1、现有数据集的问题 在自然场景(如照片,视频)的文字OCR识别中,由于文字...
  • TextDetection文本检测数据集汇总

    千次阅读 2019-01-12 14:15:42
    字符识别和文本检测的主流数据集和最近工作
  • 研究基于场景描述文本生成对应图像的方法,针对生成图像常常出现的对象重叠和缺失问题,提出了一种结合场景描述的生成对抗网络模型。首先,利用掩模生成网络对数据集进行预处理,为数据集中的对象提供分割掩模向量。然后...
  • 利用SynthText生成自然场景文本检测数据集

    万次阅读 热门讨论 2017-08-23 09:32:52
    二,生成文本检测数据集 1 , 预处理的背景图像 下载本文中使用的8000个背景图像,以及它们的分割和深度模板,下载链接地址如下: `http://zeus.robots.ox.ac.uk/textspot/static/db/ <filename>`,...
  • 文本分类(一) | (2) 数据集及预处理

    千次阅读 2019-12-19 19:23:32
    我们的文本分类系统使用的是THUCnews数据集。 目录 1. 数据集简介 2. 数据预处理 3. 具体细节 1. 数据集简介 THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档...
  • RCV1-2 是一个路透社(Ruters)英文新闻文本及对应新闻类别数据,可用以进行文本分类和其它自然语言处理(NLP)任务。
  • 基于结构化数据生成文本(data-to-text)的任务旨在生成人类可读的文本来直观地描述给定的结构化数据。然而,目前主流任务设定所基于的数据集有较好的对齐 (well-aligned)关系,即输入(i.e. 结构化数据)和输出...
  • 我们提供9种基准文本生成数据集的支持。 用户可以应用我们的库来处理原始数据副本,或者简单地由我们的团队下载处理后的数据集。 图片:TextBox的总体架构 特征 统一和模块化的框架。 TextBox建立在PyTorch的基础上...
  • Paddleocr文本识别数据集的合成与制作----超级详细

    千次阅读 多人点赞 2021-08-09 16:31:24
    前言 由于官方提供的Paddleocr模型是一个通用的OCR识别模型,在很多的日常的场景中识别...训练自己的模型第一步就是需要数据集,从理论上来说,只要给模型喂入数据集越庞大那么,那么模型的效果就会越好。 对于...
  • 文本分类数据集汇总名词解释一、“达观杯”文本智能处理挑战赛数据集1、数据格式2、测试集:test_set.csv数据集数据集三参考文献 名词解释 (1)脱敏处理 一、“达观杯”文本智能处理挑战赛数据集 “达观杯”文本...
  • 文字识别/文本检测数据集

    千次阅读 2019-10-28 16:32:30
    1、Chinese Text in Wild (CTW) 32285张图像,1018402个中文字符...图像大小2048*2048,数据集大小为31GB。 (8:1:1)比例训练集(25887张图像,812872个汉字),测试集(3269张图像,103519个汉字),验证集(3129张图像...
  • 一、数据说明 ... 从中国气象数据网下载的"中国地面气候资料日值数据集(V3.0)"数据是按年-月存放的, 每年每月的所有站点数据每一项气象要素都放在一个文本文件中,例如下图是2015年2月所有站点蒸发量的...
  • 自动生成文本摘要

    万次阅读 2018-10-06 14:33:38
    什么是文本摘要生成 如何从网页上提取数据 如何清洗数据 如何构建直方图 如何计算句子分数 如何提取分数最高的句子/摘要 &amp;amp;amp;nbsp; 在继续往下阅读之前,我假设你已经了解下面几...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 217,790
精华内容 87,116
关键字:

文本生成数据集