精华内容
下载资源
问答
  • C# udp 文本内容提取

    2014-05-27 10:59:31
    C# udp 文本内容提取
    using System;
    
    using System.Collections.Generic;
    using System.ComponentModel;
    using System.Data;
    using System.Drawing;
    using System.IO;
    using System.Linq;
    using System.Net;
    using System.Net.Sockets;
    using System.Text;
    using System.Threading;
    using System.Threading.Tasks;
    using System.Windows.Forms;
    
    namespace udp
    {
        public partial class Form1 : Form
        {
            private UdpClient sendUdpClient;
            private UdpClient receiveUpdClient;
            public Form1()
            {
                InitializeComponent();
            }
    
            private void Form1_Load(object sender, EventArgs e)
            {
                sendUdpClient = new UdpClient();
                receiveUpdClient = new UdpClient(9999);
                this.txtSendText.Focus();
    
                Control.CheckForIllegalCrossThreadCalls = false;
                Thread thread = new Thread(receive);
                thread.Start();
            }
    
    
            private void receive()
            {
    
                while (true)
                {
                    Socket socket = receiveUpdClient.Client;
                    byte[] b = new byte[1024];
                     socket.Receive(b);
                    IPAddress ip = ((System.Net.IPEndPoint)socket.RemoteEndPoint).Port;
                    //MessageBox.Show(((System.Net.IPEndPoint)socket.RemoteEndPoint).Port + "");
                    string message = Encoding.Default.GetString(b);
                    this.richTextBox1.Text += "\n" + message;
                    
    
                }
    
    
            }
            private void btnsend_Click(object sender, EventArgs e)
            {
                byte[] sendbytes = Encoding.Default.GetBytes(this.txtSendText.Text);
                sendUdpClient.Send(sendbytes, sendbytes.Length, "192.168.23.138", 9999);
            }
            int a = 0;
            private void btnload_Click(object sender, EventArgs e)
            {
                FileStream fs = File.OpenRead("E:\\汤姆叔叔的小屋.txt");
           
                byte[] b = new byte[1024];
                fs.Position = 1024*a;
                fs.Read(b, 0, b.Length);
    
                string text = Encoding.Default.GetString(b);
                this.richTextBox1.Text = text;
                a++;
            }
        }
    }
    

    展开全文
  • PDF文件文本内容提取研究............
  • PDF 文件文本内容提取的设计与实现论文
  • 正文提取:平时打开一个网页,除了文章的正文内容,通常会有一大堆的导航,广告和其他方面的信息。本博客的目的,在于说明如何从一个网页中提取出文章的正文内容,...有些新闻网页,可能新闻的文本内容比较短,但其...

    正文提取:

    平时打开一个网页,除了文章的正文内容,通常会有一大堆的导航,广告和其他方面的信息。本博客的目的,在于说明如何从一个网页中提取出文章的正文内容,而过渡掉其他无关的的信息。

    本方法是基于文本密度的方法,最初的想法来源于哈工大的,本文基于此进行一些小修改。

    约定:

    本文基于网页的不同行来进行统计,因此,假设网页内容是没有经过压缩的,就是网页有正常的换行的。

    有些新闻网页,可能新闻的文本内容比较短,但其中嵌入一个视频文件,因此,我会给予视频较高的权重;这同样适用于图片,这里有一个不足,应该是要根据图片显示的大小来决定权重的,但本文的方法未能实现这一点。

    由于广告,导航这些非正文内容通常以超链接的方式出现,因此文本将给予超链接的文本权重为零。

    这里假设正文的内容是连续的,中间不包含非正文的内容,因此实际上,提取正文内容,就是找出正文内容的开始和结束的位置。

    步骤:

    首先清除网页中CSS,Javascript,注释,Meta,Ins这些标签里面的内容,清除空白行。

    计算每一个行的经过处理的数值(1)

    计算上面得出的每行文本数的最大正子串的开始结束位置

    其中第二步需要说明一下:

    对于每一行,我们需要计算一个数值,这个数值的计算如下:

    一个图片标签img,相当于出现长度为50字符的文本 (给予的权重),x1,

    一个视频标签embed,相当于出现长度为1000字符的文本, x2

    一行内所有链接的标签a的文本长度x3 ,

    其他标签的文本长度x4

    每行的数值= 50 * x1其出现次数+ 1000 * x2其出现次数+ x4 – 8

    //说明,-8因为我们要计算一个最大正子串,因此要减去一个正数,至于这个数应该多大,我想还是按经验来吧。

    完整代码

    #coding:utf-8

    import re

    def remove_js_css (content):

    """ remove the the javascript and the stylesheet and the comment content ( and ) """

    r = re.compile(r'''''',re.I|re.M|re.S)

    s = r.sub ('',content)

    r = re.compile(r'''''',re.I|re.M|re.S)

    s = r.sub ('', s)

    r = re.compile(r'''''', re.I|re.M|re.S)

    s = r.sub('',s)

    r = re.compile(r'''''', re.I|re.M|re.S)

    s = r.sub('',s)

    r = re.compile(r'''''', re.I|re.M|re.S)

    s = r.sub('',s)

    return s

    def remove_empty_line (content):

    """remove multi space """

    r = re.compile(r'''^\s+$''', re.M|re.S)

    s = r.sub ('', content)

    r = re.compile(r'''\n+''',re.M|re.S)

    s = r.sub('\n',s)

    return s

    def remove_any_tag (s):

    s = re.sub(r''']+>''','',s)

    return s.strip()

    def remove_any_tag_but_a (s):

    text = re.findall (r''']*>(.*?)''',s,re.I|re.S|re.S)

    text_b = remove_any_tag (s)

    return len(''.join(text)),len(text_b)

    def remove_image (s,n=50):

    image = 'a' * n

    r = re.compile (r'''''',re.I|re.M|re.S)

    s = r.sub(image,s)

    return s

    def remove_video (s,n=1000):

    video = 'a' * n

    r = re.compile (r'''''',re.I|re.M|re.S)

    s = r.sub(video,s)

    return s

    def sum_max (values):

    cur_max = values[0]

    glo_max = -999999

    left,right = 0,0

    for index,value in enumerate (values):

    cur_max += value

    if (cur_max > glo_max) :

    glo_max = cur_max

    right = index

    elif (cur_max < 0):

    cur_max = 0

    for i in range(right, -1, -1):

    glo_max -= values[i]

    if abs(glo_max < 0.00001):

    left = i

    break

    return left,right+1

    def method_1 (content, k=1):

    if not content:

    return None,None,None,None

    tmp = content.split('\n')

    group_value = []

    for i in range(0,len(tmp),k):

    group = '\n'.join(tmp[i:i+k])

    group = remove_image (group)

    group = remove_video (group)

    text_a,text_b= remove_any_tag_but_a (group)

    temp = (text_b - text_a) - 8

    group_value.append (temp)

    left,right = sum_max (group_value)

    return left,right, len('\n'.join(tmp[:left])), len ('\n'.join(tmp[:right]))

    def extract (content):

    content = remove_empty_line(remove_js_css(content))

    left,right,x,y = method_1 (content)

    return '\n'.join(content.split('\n')[left:right])

    代码 从最后一个函数开始调用。

    展开全文
  • html 标签 富文本内容 提取img 及 img中src 废话不多say!上代码! ????记得点赞哦 ???? ????大佬请看???? // 待处理数据 var content="<p><h1>html 标签 富文本内容 提取img 及 img中src<h1/> &...

    html 标签 富文本内容 提取img 及 img中src

    废话不多say!上代码!

    👍记得点赞哦 😄

    👇大佬请看👇

    // 待处理数据
      var content="<p><h1>html 标签 富文本内容  提取img  及 img中src<h1/> <img src="图片地址url"alt="文字描述">
      <img src="图片地址" alt="dachshund" width="100%"></p>"
        var urlData =[]  //存储需要的信息
       
        asd(){
        	this.content.replace(/<img [^>]*src=['"]([^'"]+)[^>]*>/g, function (match, capture) {
             data.push(capture); // capture图片地址 img标签中src内容   match // img标签整体
           });
           console.log(data) // 图片地址url  
        }
    
    

    都看👓完了,就👍1️⃣👇吧

    展开全文
  • 展开全部^#!/usr/bin/python3# -*- coding: utf-8 -*-def parse(text):result = []import rer1 = re.compile(r'\s*(/[^636f70793231313335323631343130323136353331333361303637\s]+)\s+FaceTracking\s+\{([^\}]*)\}...

    展开全部

    ^#!/usr/bin/python3

    # -*- coding: utf-8 -*-

    def parse(text):

    result = []

    import re

    r1 = re.compile(r'\s*(/[^636f70793231313335323631343130323136353331333361303637\s]+)\s+FaceTracking\s+\{([^\}]*)\}\s+\(([^\)]*)\)')

    r2 = re.compile(r'\s*FD_Face\s+\(([^\)]*)\)')

    pos = 0

    while True:

    m = r1.match(text[pos:])

    if not m:

    break

    data = {}

    data['source'] = m.group(1)

    keys = m.group(2).split(',')

    values = m.group(3).split(',')

    attrs = dict(map(lambda x,y:[x,y], keys, values))

    data.update(attrs)

    pos += m.end()

    face = []

    for x in range(int(data['FaceNumber'])):

    m = r2.match(text[pos:])

    if not m:

    break

    face.append(m.group(1).split(','))

    pos += m.end()

    data['FD_Face'] = face

    result.append(data)

    return result

    def main(input_file, output_file):

    f = open(input_file, 'r')

    text = f.read()

    f.close()

    result = parse(text)

    buff = []

    for data in result:

    buff.append('miFileIndex: {miFileIndex}'.format(**data))

    buff.append('source: {source}'.format(**data))

    buff.append('FaceNumber: {FaceNumber}'.format(**data))

    i = 0

    for face in data['FD_Face']:

    i += 1

    buff.append('Face{0}: ({1})'.format(i, ','.join(face)))

    buff.append('')

    f = open(output_file, 'w')

    f.write("\n".join(buff))

    f.flush()

    f.close()

    if __name__ == '__main__':

    import sys

    if len(sys.argv) == 3:

    main(sys.argv[1], sys.argv[2])

    展开全文
  • PDF文件文本内容提取的设计和实现.pdf
  • 提取日志文本中特定的文本语句,并对里面的数值进行整理和计算均值。用Python的re包可以轻易地实现,不过在这个过程中,我们将使用到正则表达式。关于正则表达式,除了自己慢慢学习领悟外,强烈推荐以下网页工具给...
  • 小伙伴们可能会觉得从图像中提取文本是一件很麻烦的事情,尤其是需要提取大量文本时。PyTesseract是一种光学字符识别(OCR),该库提了供文本图像。 PyTesseract确实有一定的效果,用PyTesseract来检测短文本时,...
  • 有时候我们从网上下载某些.txt文件,想对文件内容进行提取并生成新的目录文件首先我们应遍历某特定目录下的所有.txt文件这里我们采用广度遍历目录的方式(队列遍历)import osimport collectionsdef getAllDirQue(path...
  • 主要实现批量文本中相关信息的提取。涉及手机号,姓名,相关日期,金额。 1、本项目是作为一个服务接口,使用Python开发,对方采用Java从MySQL数据库中读取批量文本信息,然后调用本接口服务,解析出相关的字段信息...
  • Python调用BeautifuSoup进行html的文本内容提取问题 [ 求问吃鸡主播beautifu1 boyPython调用BeautifuSoup进行html的文本内容提取问题 [ 求问吃鸡主播beautifu1 boy相关问题:匿名网友:1.python代码是解释性代码,即不...
  • PowerPoint (PPT) 文档 文本内容提取

    千次阅读 2017-10-14 11:35:47
    ppt文档里面 有很多文字,有些时候需要提取出来在WORD里面做素材用,网上搜索了下,首推的是pptConverttodoc,可我下载下来试验了下,要么是空白,要么不全,或许与我的系统环境有关。其它还有什么存为大纲之类,都...
  • 解题思路:由于需要对文本内容中的汉字进行提取,所以首先应该考虑如何将这些标点符号除去,然后将剩下的汉字进行统计其出现的频率,所以可以将这些标点符号存放在一个变量中,然后进行遍历和条件限制可以实现。...
  • Jsoup解析本地html,对文本内容提取

    千次阅读 2013-09-22 11:17:27
    jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API,可通过 DOM,CSS 以及类似于 jQuery 的操作方法来取出和操作数据。 jsoup 的主要功能如下: 1....
  • 定义一个提取文本的函数 def gettext(html): from bs4 import BeautifulSoup soup= BeautifulSoup(html) return soup.get_text() 这是我下载内容的函数 def downURL(url,filename): print url print ...
  • 第一步:创建一个select下拉框 <select id="cputurbocheck"> <option value="LongTerm">Long Term</option> <option value="ShortTerm">Short Term<...首先要明确,想添加一个...
  • 概述一般来说,我们无法对PDF文档格式的内容进行修改编辑,但当我们确有此需求时,可通过提取文本内容的方式来实现。...提取PDF文档中的所有文本内容提取PDF指定页面的文本内容提取PDF指定区域的文本内容Jar包的获...
  • 在日常工作中,有时可能会需要从庞大的PDF 文档中提取其中所包含的文本内容。通过在网上搜索资料后发现,Free Spire.PDF for Java 正好为我们提供了一种方便快捷的文本提取方法,下面就分享一下解决思路及过程中使用...
  • 提取chinese文本内容

    2018-07-04 16:13:48
    从chinese中提取想要的文本。空格之前的内容输入到chineseA中,之后的内容输入到chineseB中
  • 给大家带来一款功能强大的批量文本提取器,该软件非常不错,当前支持支持正则表达式,批量提取文本,可以将HTML等文件中指定内容存入数据库、HTML、文本文件,存入数据库的意思是将提取文本内容直接导入进数据库中...
  • 富文本提取文本内容

    千次阅读 2019-02-18 16:48:40
    // 编辑器提取文本 $c1 = $data["content"]; // 得到编辑器的内容 $c2 = htmlspecialchars_decode($c1);//把一些预定义的 HTML 实体转换为字符 $c3 = str_replace("&amp;nbsp;","...
  • PHP将富文本内容去除各类样式图片等只保留txt文本内容(作用于SEO的description)复制下方代码functiongetContentText($content){$content_01=$content;//从数据库获取富文本content$content_02=htmlspecialchars_...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 4,713
精华内容 1,885
关键字:

文本内容提取