耶鲁科学家成功在两量子比特间,上证信息
分类:奥门金沙网址

原标题:耶鲁科学家成功在两量子比特间“传送”量子门,为可纠错量子位设计铺路

原标题:上证信息-文因互联(联合)发布:知识提取在上市公司信息披露中的应用

原标题:一二级市场估值倒挂成常态,如何寻找真正潜力股?

大约 20 年前,2 位计算机科学家曾提出一种特殊的量子操作技术,这一技术基于量子隐形传态对两个量子比特进行传输,使量子计算机更加可靠。

style="font-size: 16px;">课题组:上证信息-文因互联(联合)课题组

课题主办人:上海证券交易所信息公司 赵伟 何曾樑

课题承接单位:北京文因互联科技有限公司

文因互联:张强 王丛 李卫东 丁海星 张梦迪 马新磊

上证信息:王辉 赵伟 何曾樑 王海菲 李炜 陈春燕 奚超

  李斯斯/文

最近,耶鲁大学研究团队成功将这一想法变成现实,通过实验证明了这一令人难以置信的技术确实可行。这项研究论文在 9 月 5 日发表在 Nature 杂志上,耶鲁大学的研究人员已经实现了量子计算模块化的第一步,在两个量子比特间“传送”了量子门。

信息披露是资本市场的重要组成部分,是资本市场法律法规的核心内容之一,也是对市场参与者权益的有利保障。

随着我国综合国力的不断提升,尤其是对科技创新的重视和投入的不断提升,充分发挥我国科技创新人才众多的优势,再加上各类社会资金对科技创新型企业的持续资金投入,高估值、高科技公司越来越多。

图片 1

以上市公司信息披露为例,随着市场监管的全面深化以及上市公司数量的逐年增长,各类投资者,尤其是中小投资者,面临着海量公告信息处理能力不足的困难。

交易所也大开绿灯,欢迎新经济上市。但另一方面,不断有上市公司登陆交易所后破发,投资者也愈发谨慎。

图 | 9 月 5 日 Nature 杂志刊登量子门研究(来源:Nature)

对海量公告信息制作摘要或提取有意义的结构化信息,一方面可以提高投资者的信息获取能力,同时也为市场监管及企业研究提供了基础数据支持。

如何寻找真正属于高新技术产业和战略性新兴产业的公司?国信证券TMT行业首席分析师程成调研了数十家公司,对具有广阔市场空间、具备核心竞争力、高成长且估值合理的代表性公司进行了筛选,并以二级市场的已上市公司宁德时代和一级市场的拟上市公司优必选为例进行了分析。

新研究基于量子隐形传态(quantum teleportation)技术,该技术在以前的实验中曾被用于在两者间用非物理手段传输未知的量子态。基于 20 世纪 90 年代的理论,耶鲁大学的研究人员在实验中实现了不基于任何直接相互作用的量子运算(即“量子门”)。这种量子门的设计基于由独立量子系统所构建的量子网络,业内专家认为此类设计将能消除源自量子物理本身,量子处理器运算过程中所出现的运算错误。

本文介绍了一种用于上市公司信息披露自动摘要的方法,本方法使用深度学习与知识规则的混合算法,首先将文档划分为句子,将句子进行标注后通过LSTM模型训练计算出关键语句,再将输出句子经过规则系统提取,从而得到一篇公告的重要实体与关系,最后重组为摘要。本方法在几类高频、重要的上市公司公告中进行了结构化提取与摘要生成的测试,并取得理想结果。本文认为这种方法可以低成本、可迁移地部分解决公司公告的知识提取问题。

程成称,资本市场风云变化,具有核心创新技术优势的公司难以被轻易取代,并且凭借着广阔的市场空间和构建的核心技术竞争力,将得以快速发展,无论是在二级市场(如宁德时代)还是在一级市场(如优必选)都将成为资本追逐的宠儿,也将成为我国构建自主核心创新能力的重要推动者。

目前,耶鲁量子研究所由首席研究员 Robert Schoelkopf 和前研究生 Kevin Chou 所领导的研究小组正在研究量子计算的模块化方法。研究人员表示,模块化设计已被证明是构建大型复杂系统的有效解决方案,从 SpaceX 的火箭引擎到生物细胞中的组织,模块化可谓是无处不在。而预期的量子计算模块化结构将由一组模块构成,用以将小型量子处理器连接到一个更大的网络中。

特别鸣谢

大量公司破发

图片 2

上证所信息网络有限公司

2018年3月,证监会发布《关于开展创新企业境内发行股票或存托凭证试点的若干意见》。

图 | 耶鲁大学所研发的模块化量子计算设计示意图(来源:yale.edu)

文章节选自上海证券交易所与上交所技术出版的《2017证券信息技术研究发展中心研究报告》内部刊物。

此举标志着我国资本市场对创新企业为代表的实体经济的重要支持,必将推动我国互联网、大数据、云计算、人工智能、软件和集成电路、高端装备制造、生物医药等高新技术产业和战略性新兴产业的快速发展,对我国的国家战略起到极为重要的深远作用。

此体系结构中的模块彼此之间具有自然隔离,从而减少了通过较大系统的不必要的交互。研究人员表示,这种隔离也使模块之间的操作成为一项独特的挑战。传送量子门是实现模块间操作的一种方式。

(一)研究背景

错失阿里巴巴后,港交所也对新经济张开怀抱。今年4月24日港交所发布IPO新规,允许双重股权结构公司上市、允许尚未盈利的生物科技公司赴港上市,这是港交所25年来最大改革。

在经典计算机中,计算位的操作被称为逻辑门。就如角斗士竞技场一样,在逻辑门中两个计算位进入,而最终只输出一个计算位。门以不同的形式选择两者中的胜者。逻辑门是组成数字系统的基本结构,通常组合使用不同的逻辑门实现更为复杂的逻辑运算。

在我国证券市场上,信息披露是一种法规要求,各种信息披露义务人“应当真实、准确、完整、及时地披露信息”。以上市公司为例,信息披露能够使市场及时掌握公司的运营情况,评估未来盈利水平和风险情况,从而做出投资决策。

一边是二级市场伸出橄榄枝,但另一边是一二级市场估值倒挂已经成为2018年创投圈的主题词。

这些计算位通过门的操作相互作用,构成了最终你想要得到的计算的基础。

上市公司的公告信息披露由各信息披露义务人在指定的信息披露网站发布,主要为PDF格式。以沪市上市公司为例,2016年全年披露了123732篇公告,2017年共158977篇,并且随着上市公司数量的增加这一数字将会逐年增加。每年3月底、4月底、8月底、10月底为定期报告披露高峰期,最多的一天(2017年4月28日)发布了3571篇公告。这不但为证券交易所的合规检查带来了压力,也给投资者带来了极大的信息负载,尤其是对中小投资者。

今年年初至今,共有21家估值超过10亿美金的公司于各大交易所上市,这些公司中有10家上市后跌破发行价,形势较为严峻。

传统计算机的逻辑门,计算位是 1 或 0 的确定状态。但是,量子版本的逻辑门,原先的确定状态变成了 1 和 0 的不确定状态,即叠加态。同时,这一状态当有任何“观测性”行为发生时,则会坍缩为确定的 0 或1 状态。更糟的是,这种让量子态塌缩的“观测性”行为很容易发生,这就让量子计算机对环境提出很高的要求。

随着上市公司数量日益增多,将公告以行之有效的方式让阅读者“读薄”的工作刻不容缓,其中通过自然语言处理、知识图谱、深度学习等技术将公告信息结构化提取或许是关键所在。

再来看各家公司业务情况,21家企业中,除华米科技、小米、中国铁塔、药明康德、科沃斯、工业富联和宁德时代外,剩余14家皆不属于核心技术的创新。10家破发的公司中,除中国铁塔外,剩余9家皆基于运营模式创新,运营模式创新独角兽企业破发概率高达64.3%。

图片 3

目前,沪深两所上市公司的信息披露内容中,部分定期公告及临时公告已经利用XBRL技术将信息结构化,其中主要包括公司半年报与年报中的基本信息、股本结构、以及资产负债表、利润表、现金流量表财务报表及附注,这些信息在上市公司撰写公告时,便通过特殊工具进行了采集[1],之后便可以直接将这些信息结构化存储和利用。然而,已经格式化处理的公告仅占全部公告的一部分,加之信息披露的要求逐年变化,对公告信息的完整格式化仍然是个挑战。中小投资者通常使用市场信息供应商来获取信息,而这些信息供应商由于关注点的不同,所提供的数据在时效性、完整性、准确性上,也有很大的提升空间。

从2017年运营情况来看,10家破发的企业中,6家于2017年处于净亏损状态。而中国铁塔虽然于2017年处于盈利状态,但ROE分别不足0.01%,盈利能力堪忧。

图 | 证明量子门实现的实验设备(来源:Nature)

上市公司信息披露的种类繁多,如上交所将上市公司公告分为35大类,376个小类(上海证券交易所,2013)。目前上海证券交易所制作并免费对市场发布部分公告的摘要信息,但由于制作维护成本较高,不易扩展,并难以应对公告数量的井喷。

程成认为,很多公司融资需求迫切,这往往拉高了公司在一级市场估值,当公司业绩在二级市场上市后不及预期、难以支撑高估值后,二级市场投资者、一级市场较后轮的投资者会蒙受公司业绩不及预期带来的股价下跌的损失。

而现在,量子计算机工程师通过模块化结构,将较小的量子系统组建成较大的量子系统以抵消错误。

本项工作的初始目的是为了上交所的公告制作小组提供合适的自动化处理工具,减轻公告高峰期的运行压力,降低人工采编风险,控制可能增加的成本;在此基础上,考虑为周边系统甚至公众提供通用的公告自动抽取服务。

此外,一些估值很高的企业往往业务类型可替代性强,没有核心技术导致护城河低,或业务模式不被广泛认同,一级市场估值过高,导致二级市场上市时出现估值泡沫,从而出现破发。

要实现这一目标,量子门也需要共享。

本项工作通过LSTM深度学习网络,首先将不同类别公告的关键语句抽取出来,抽取过程仅需公告制作小组业务专家对少量公告进行标注,期间通过Dropout等方法提供模型泛化能力。关键语句抽取后,再通过规则方法进行细粒度提取,从而将公告结构化。结构化提取与摘要生成是知识提取的两种展示形式,本工作在9类高频公告中分别对两者进行了充分测试,均取得了较为理想的结果。

宁德时代

通过量子门传输信息,听起来似乎很科幻。但这与在星际迷航中的传送并不是一回事。

研究重点和难点

并非所有公司都会破发,也有高估值公司获得二级市场投资者青睐,如宁德时代——一家打破富士康记录(36天)、24天即闪电过会的高科技公司。

量子遥传又称量子隐形传输、量子隐形传送、量子隐形传态,是指粒子与粒子以对或组的方式相互纠缠后,当一个粒子被测量,另一个粒子则迅速塌缩成一个相关的状态,无论两者相距多远。

本项目的初始设计目的是为了公告制作小组提供高质量的自动化处理工具。面对公告摘要这特殊类型文本,公告制作小组制定了较高的准确性要求,以至于传统(新闻)文本摘要无法完全满足准确率需要。本课题需要探索深度学习与知识提取的结合,以平衡开发成本与准确率的矛盾。这项工作的探索不仅为扩展更多公告类型奠定基础,也为其他类型文本处理带来宝贵经验。

宁德时代从向证监会递交招股书到过会上市仅用了24天,2018年6月11日登陆创业板,其IPO发行价为25.14元,对应市盈率22.99倍。

这一现象在技术上已通过实验证明,但直到现在,这一过程还没有进行可靠的实时执行和测量,而该技术对量子计算机的实现至关重要。

对于不同格式的文档,文本的获取是第一步。PDF格式是目前信息披露的法定格式。PDF解析是解决公告分析的前提条件,而由于PDF转换过程中所带来的信息丢失,噪音干扰,段落结构破坏,表格结构破坏会严重影响后续分析,于是PDF解析是本课题第一个难点。对于可获取的其他格式文本,如Word或TXT,内容获取较易,没有加以特别对待;而对部分由图片转换的PDF,由于涉及到图像识别等其他专项技术,未在本项工作中加以覆盖。

7月25日,宁德时代自盘中最高价95.08元首次跌停,收盘价82.59元,对应动态市盈率仍高达108.52倍。最新交易日8月31日收盘价65.50元,为发行价的160.5%,经过连续回调,现动态市盈率78.10倍。目前宁德时代市值1400亿左右,2017年静态估值按扣非后净利润测算是62倍,动态市盈率90倍,已经大幅高出行业均值。

研究人员在一个蓝宝石芯片中实现了这种量子比特的传送。同时,通过应用可纠错编码,这一过程的可靠性为 79%

深度学习模型需要平衡模型的准确率和泛化能力,同样不能采用过于复杂的模型降低运算速度,所以深度学习模型的合理搭建是第二个难点。

国信证券TMT行业首席分析师程成在研报中指出,从公司所处的赛道来看,根据宁德时代招股书显示,其87%营收贡献自动力电池系统的销售。动力电池系统的需求驱动主要来自新能源汽车的增长,根据 GGII的测算,预计2022年新能源汽车销量将达到600万辆,比2017年增长2.7 倍。作为新能源汽车的上游产业,宁德时代所处市场未来五年的增长潜力可以以此测算。

成熟的量子计算机或能实现比现有经典超级计算机快数个量级的计算速度,但基于量子位的量子计算由于量子物理中的一些原则性限制较经典位更易出错。在此次耶鲁大学所公布的研究中,系统增设了用于监控逻辑运算用量子位的“辅助”量子位,以便在运算过程中及时发现并更正错误。首席研究员 Robert Schoelkopf 说:“我们的实验首次实现了量子比特间的双量子比特运算,可以说是实现可纠错量子比特设计过程中的一个里程碑。

事件提取是信息提取研究中最具有挑战性的任务之一,如何能够在保证泛化能力的情况下更准确的进行事件元素信息的提取是第三个难点。

优必选

-End-

最后的难点是深度学习模型与知识提取的混合工程架构,要考虑如何能更快让开发人员扩展,非常考验工程设计者的架构能力。

如果说宁德时代是上市公司中优质企业的代表,优必远则是非上市优秀公司的代表。

编辑:Peter,戴青

(二)预备知识 2.1 自动文本摘要任务

优必选成立于2012年。成立之初就在伺服舵机等相关技术上进行了深度布局,创始人周剑一度变卖资产作为研发投入,2012年到2016年的五年时间一直是优必选高投入的时期。

参考:

文本摘要(Document/TextSummarization)是自然语言处理(NLP,NaturalLanguage Processing)中的一个比较难的问题。

对研发的坚持最终取得了回报,春晚的一鸣惊人展示了优必选技术实力。目前优必选已经形成了全系列的伺服舵机产品线,公司全系列机器人产品均采用自主研发的伺服舵机。

按照不同的数据源,可以大致分为1)新闻摘要,2)一般论文摘要,3)综述论文摘要等几个类型。

国信证券TMT行业首席分析师程成在研报中指出,伺服舵机仅是优必选五大核心技术之一。优必选另外四大核心技术分别为运动控制、导航定位、计算机视觉和自然语言处理。

  • 新闻摘要要求编辑能够从新闻事件中提取出最关键的信息点,然后重新组织语言进行描述。
  • 一般论文的摘要要求作者先表述清楚问题,对前人工作中不完善的地方进行总结,然后用更凝练的语言描述自己的工作。
  • 综述性质的论文要求作者通读大量相关领域的工作,用最概括性的语言将每份工作的贡献、创新点写出来,并对每份工作的优缺点进行比较。

在运动控制上,为解决机器人行走的环境适应性和能量效率两个核心问题,目前全球方案都基于三种理论体系,分别为ZMP理论、SLIP模型理论、极限环行走理论。优必选基于以上理论,形成了具有自身特点的运动控制的改进。通过实际的对比测试,优必选方案在能量消耗和相对行走速度等关键指标上已经达到国际领先水平。

自动文本摘要是指“一段从一份或多份文本中提取出来的文字,它包含了原文本中的重要信息,其长度不超过或远少于原文本的一半。自动文本摘要旨在通过机器自动输出简洁、流畅、保留关键信息的摘要”(Radev,Hovy,McKeown,2002)。

导航定位上,优必选在该技术领域已经掌握了基于多传感器融合的复杂场景下的定位导航技术USLAM,并成功的实现产业化。

返回搜狐,查看更多

本质上,文本摘要是一种信息过滤,输出的文本比输入的文本少很多,但却包含了主要的信息,有点类似主成分分析(PCA)。从某种意义上,文本摘要与推荐系统的功能类似,都是为了提取出用户感兴趣的内容,只是使用的方法有很大不同。

计算机视觉上,优必选自研了人脸识别系统、视觉问答系统、物体检测系统、图像描述系统、模型压缩系统、人体姿态估计算法等,构建基于深度学习的机器人软硬件一体化视觉系统。

责任编辑:

按照文档数量,文本摘要可以分为单文档摘要与多文档摘要,前者是后者的基础,但后者不只是前者结果的简单叠加。前者经常应用于新闻信息的过滤,而后者,在搜索引擎中有很大的潜力,难度也随之加大。在单文档摘要系统中,一般都采取基于抽取的方法。

自然语言处理上,优必选针对多领域的应用需求,设计了机器人语音交互系统。系统还涉及关键模块如知识图谱、知识管理、情感分析、意图识别、对话管理和多模型实时融合、语音识别和语义理解联合优化等。

而对于多文档而言,由于在同一个主题中的不同文档中不可避免地存在信息交叠和信息差异,因此如何避免信息冗余,同时反映出来自不同文档的信息差异是多文档文摘中的首要目标,而要实现这个目标通常以为着要在句子层以下做工作,如对句子进行压缩,合并,切分等。另外,单文档的输出句子一般是按照句子在原文中出现的顺序排列,而在多文档摘要中,大多采用时间顺序排列句子,如何准确的得到每个句子的时间信息,也是多文档摘要需要解决的一个问题。

技术只是优必选的“一条腿”。技术成熟后优必选考虑了商业化,有了前期技术积累,优必选创下了不错的销售业绩。

本课题根据业务需要,主要聚焦在单文档摘要的处理上。针对单个文档,对其中的内容进行抽取,并针对用户或者应用需求,将文中最重要的内容以压缩的形式呈现给用户。常见的单文档摘要技术包括基于特征的方法(文档摘要中常用的文章特征包括词频、特定段落、段落的特定句子等)、基于词汇链的方法和基于图排序的方法。

在刚刚举行的2018世界机器人大会上,优必选全新一代便携式智能机器人–悟空一经推出就斩获“最具创新产品”大奖, 还没正式上市,就已经签下了8.7亿元人民币的大单;面向校外的STEM教育智能编程机器人JimuRobot和面向校内的人工智能教育解决方案,今年接连签下广东、云南、四川等地数亿元的教育大单,JimuRobot还在全球近500家苹果旗舰店销售;在娱乐市场上,优必选联合迪士尼和腾讯打造IP机器人,目前已经推出了星球大战第一军团冲锋队员机器人,接下来将推出钢铁侠机器人。

自动文本摘要有非常多的应用场景,如自动报告生成、新闻标题生成、搜索结果预览等。此外,自动文本摘要也可以为下游任务提供支持。尽管对自动文本摘要有庞大的需求,这个领域的发展却比较缓慢。对计算机而言,生成摘要是一件很有挑战性的任务,要求计算机在阅读原文本后理解其内容,并根据轻重缓急对内容进行取舍,裁剪和拼接内容,最后生成流畅的短文本。因此,自动文本摘要需要依靠自然语言处理/理解的相关理论,是近几年来的重要研究方向之一。

公开资料显示,优必选2015年营收在5千万元左右,2016年营收3亿元左右,2017年时优必选的目标是10~15亿元。优必选2018年营收目标25亿元人民币,净利润2亿元人民币;预计2019年将实现营收60亿元人民币。

自动文本摘要通常可分为两类,分别是抽取式(Extractive)和生成式(Abstractive)。抽取式摘要判断原文本中重要的句子,抽取这些句子成为一篇摘要。

收入增长的另外一个原因是优必选站对了赛道,服务机器人市场空间辽阔。

而生成式方法则应用先进的自然语言处理的算法,通过转述、同义替换、句子缩写等技术,生成更凝练简洁的摘要。比起抽取式,生成式更接近人进行摘要的过程。历史上,抽取式的效果通常优于生成式。伴随深度神经网络的兴起和研究,基于神经网络的生成式文本摘要得到快速发展,并取得了不错的成绩。

截至2016年底,我国60岁以上人口已达2.3亿人,占总人口的16.7%。随着人口老龄化趋势加快,以及医疗、教育需求的持续旺盛,我国服务机器人存在巨大市场潜力和发展空间。到2020年,新兴应用场景机器人的快速发展,我国服务机器人市场规模有望突破29亿美元。

一般来说,自动文摘过程包括三个基本步骤:

2018年5月,优必选完成腾讯领投的8.2亿美元C轮融资,这一金额刷新了AI领域单轮融资纪录,优必选估值已经达到50亿美元。

  • 1.文本分析过程:对原文进行分析处理,识别出冗余信息;
  • 2.文本内容的选取和泛化过程:从文档中辨认重要信息,通过摘录或概括的方法压缩文本,或者通过计算分析的方法形成文摘表示;
  • 3.文摘的转换和生成过程:实现对原文内容的重组或者根据内部表示生成文摘,并确保文摘的连贯性

国信证券TMT行业首席分析师程成在研报中指出,优必选估值/融资金额约为4.3,和已经在美上市的其它公司相比,该数值处于较低的水平,估值上升空间相对较大。返回搜狐,查看更多

文摘的输出形式依据文摘的用途和用户需求确定。不同的系统所采用的具体实现方法不同,因此在不同的系统中,上述几个模块所处理的问题和采用的方法也有所差异。

责任编辑:

2.2 摘要评估

评估一篇摘要的质量是一件比较困难的任务,“一千个读者,有一千个哈姆雷特”,对于一篇摘要而言,很难说有标准答案。不同的人理解一篇文档会有很大的不同,基于人工评价的方法有类似于评价开放的文科辨析题目答案一样,需要从答案中寻找一些所谓的要点,计算要点的覆盖率,打分。

人工评价结果在很大程度上都是可信的,因为人可以推理、复述并使用世界知识将具有类似意思但形式不同的文本单元关联起来,更加灵活,但是时间成本高,效率低。

不同于很多拥有客观评判标准的任务,摘要的评判一定程度上依赖主观判断。即使在摘要任务中,有关于语法正确性、语言流畅性、关键信息完整度等标准,每个人对摘要的优劣都有自己的准绳。

自上世纪九十年代末开始,一些会议或组织开始致力于制定摘要评价的标准,他们也会参与评价一些自动文本摘要。比较著名的会议或组织包括SUMMAC,DUC(DocumentUnderstanding Conference),TAC(TextAnalysis Conference)等。

目前,评估自动文本摘要质量主要有两种分类方法。

第一种分类:人工评价方法和自动评价方法。这两类评价方法都需要完成以下三点:

  • 决定原始文本最重要的、需要保留的部分;
  • 在自动文本摘要中识别出1中的部分;
  • 基于语法和连贯性(Coherence)评价摘要的可读性(Readability)。

评估一篇摘要的好坏,最简单的方法就是邀请若干专家根据标准进行人工评定。这种方法比较接近人的阅读感受,但是耗时耗力,无法用于对大规模自动文本摘要数据的评价,和自动文本摘要的应用场景并不符合。因此,文本摘要研究团队积极地研究自动评价方法。为了更高效地评估自动文本摘要,可以选定一个或若干指标(Metrics),基于这些指标比较生成的摘要和参考摘要(人工撰写,被认为是正确的摘要)进行自动评价。

第二种分类文摘自动评估方法大致分为两类:内部评价方法和外部评价方法。

一类称作内部评价方法,与文摘系统的目的相关,它通过直接分析摘要的质量来评价文摘系统;第二类称作外部评价方法,它是一种间接的评价方法,与系统的功能相对应,将文摘应用于某一个特定的任务中,根据摘要功能对特定任务的效果来评价自动文摘系统的性能,如对于信息检索任务而言,可以对比采用摘要进行检索与采用原文进行检索的准确率差异,通过文摘对检索系统的效果来评价文摘系统的性能。

内部评价方法按信息的覆盖面和正确率来评价文摘的质量,一般采用将系统结果与“理想摘要”相比较的方法。这种评价方法来源于信息抽取技术。在信息抽取评测中,将原文的关键要点抽取出来,然后与人工抽取的内容相比较,计算其召回率,准确率,冗余率和偏差率等几个指标。这种内部评价方法存在的主要困难是“理想摘要”的获得问题。

本课题研究中,公告信息披露这一问题场景对摘要信息的准确性有严格要求,生成式摘要技术不适用于本场景,本文主要介绍基于关键句选取、信息抽取和摘要模板生成式自动文本摘要。

2.3 LSTM序列标注模型

在自然语言理解中,一句话的前后顺序有着极其重要的语义信息,所以研究者在处理文本应用中大多采用 LSTM 模型。LSTM 模型是一种特殊的循环神经网络(Recurrent Neural Network,RNN) 。RNN(Graves,2012)适合解决时间序列的输入输出问题,而自然语言恰好是一个序列标注问题,在传统神经网络模型中,是从输入层到隐含层再到输出层,层与层之间是全连接的,每层之间的节点是无连接的。但是这种普通的神经网络对于很多问题却无能无力。例如,在之前的语言模型的例子中,要预测句子的下一个单词是什么,一般需要用到前面的单词,而一个句子中前后单词并不是独立的。RNN已经被在实践中证明对NLP是非常成功的。如词向量表达、语句合法性检查、词性标注等。

下图便可以直观的理解RNN网络结构:

图片 4

可以把x理解为自然语言句子中逐个单词的词向量,其中隐藏层St=f(Uxt+Wst−1),Wst-1便是前一个单词所携带的语义信息。由于每一层的St都会向后一直传递,所以理论上St能够捕获到前面每一层发生的事情。然而随着层数加深,RNN最终会计算成W的连乘积形式,如果初始梯度过大或过小,便会导致连乘积很大或趋近于0,进而无法有效学习,也就是梯度爆炸和梯度消失。

长短期记忆网络(Long Short-Term Memory,LSTM)是一种 RNN 特殊的类型,通过学习长期依赖信来避梯度爆炸和梯度消失问题。所有RNN 都具有一种循环神经网络模块的链式的形式。在标准的 RNN 中,这个循环模块只有一个非常简单的结构,例如一个 tanh 层。LSTM同样具有这样的循环模块,但更复杂,其核心是记忆单元(memory cell)。记忆单元在每一步里记住相关信息并忘掉无关信息。这样,重要的相关信息可以一直留存,从而其梯度不会变的太小。形式上来看,记忆单元可以用以下两个公式来定义:

ct = ft ⊙ ct−1

  • it ⊙ gt (1)

ht = ot ⊙ tanh(ct ) (2)

其中⊙ 是Hadamard乘积,在上面公式里表示对两个向量里相同维度分别相乘的到一个新向量。

公式(1)是说,当前的记忆单元 ct 的状态是以下两个因素之和:

  • 上一步的记忆单元 ct −1 ,其权重为 ft (遗忘门forget gate的当前状态)
  • 新信息 gt ,其权重为 it (输入门,input gate的当前状态)

遗忘门控制有多少上一步的记忆单元信息流入当前记忆单元,而输入门控制有多少新信息流入当前的记忆单元。

公式(2)是说当前的隐层状态 ht 是从当前记忆单元得到的,其又由输出门(output gate)ot 来控制。LSTM的循环模块里的输入门 it 、遗忘门 ft 、输出门 ot ,以及需要新输入的信息 gt 可以用以下公式简洁地表示:

图片 5

在序列问题中,不仅仅是上文对当前词有影响,下文也是,也就发展出了双向LSTM(Bidirectional Long Short-Term Memory),即正向LSTM捕获了上文的特征信息,而反向LSTM捕获了下文的特征信息,通常情况下双向LSTM的表现都会比单向LSTM要好。

2.4 命名实体识别

命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。一般来说,命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。

命名实体大多数具有以下的特点:

  • 各类命名实体的数量众多:根据对人民日报1998年1月的语料库(共计2,305,896字)进行的统计,共有人名19,965个,而这些人名大多属于未登录词。
  • 命名实体的构成规律复杂:例如由于人名的构成规则各异,中文人名识别又可以细分为中国人名识别、日本人名识别和音译人名识别等;此外机构名的组成方式也最为复杂,机构名的种类繁多,各有独特的命名方式,用词也相当广泛,只有结尾用词相对集中。
  • 嵌套情况复杂:一个命名实体经常和一些词组合成一个嵌套的命名实体,人名中嵌套着地名,地名中也经常嵌套着人名。嵌套的现象在机构名中最为明显,机构名不仅嵌套了大量的地名,而且还嵌套了相当数量的机构名。互相嵌套的现象大大制约了复杂命名实体的识别,也注定了各类命名实体的识别并不是孤立的,而是互相交织在一起的。
  • 长度不确定:与其他类型的命名实体相比,长度和边界难以确定使得机构名更难识别。中国人名一般二至三字,最多不过四字,常用地名也多为二至四字。但是机构名长度变化范围极大,少到只有两个字的简称,多达几十字的全称。在实际语料中,由十个以上词构成的机构名占了相当一部分比例。

英语中的命名实体具有比较明显的形式标志(即实体中的每个词的第一个字母要大写),所以实体边界识别相对容易,任务的重点是确定实体的类别。和英语相比,汉语命名实体识别任务更加复杂,而且相对于实体类别标注子任务,实体边界的识别更加困难。

命名实体识别由3个问题组成:1.识别出文本中的命名实体;2.确定该实体的类型;3.对于多个实体表示同一事物时,选择其中的一个实体作为该组实体的代表。主要有如下的几种方法进行处理。

2.5 基于规则和词典的方法

基于规则的方法,多采用语言学专家手工构造规则模板,选用特征包括统计信息、标点符号、关键字、指示词和方向词、位置词(如尾字)、中心词等方法,以模式和字符串相匹配为主要手段,这类系统大多依赖于知识库和词典的建立。

基于规则和词典的方法是命名实体识别中最早使用的方法,一般而言,当提取的规则能比较精确地反映语言现象时,基于规则的方法性能要优于基于统计的方法。但是这些规则往往依赖于具体语言、领域和文本风格,编制过程耗时且难以涵盖所有的语言现象,容易产生错误,系统可移植性不好,对于不同的系统需要语言学专家重新书写规则。基于规则的方法的另外一个缺点是代价大,存在系统建设周期长、移植性差而且需要建立不同领域知识库作为辅助以提高系统识别能力等问题。

2.6 基于统计的方法

基于统计机器学习的方法主要包括:隐马尔可夫模型(HiddenMarkovMode,HMM)、最大熵(MaxmiumEntropy,ME)、支持向量机(Support VectorMachine,SVM)、条件随机场(ConditionalRandom Fields,CRF)等。

在这4种学习方法中,最大熵模型结构紧凑,具有较好的通用性,主要缺点是训练时间复杂性非常高,有时甚至导致训练代价难以承受,另外由于需要明确的归一化计算,导致开销比较大。而条件随机场为命名实体识别提供了一个特征灵活、

全局最优的标注框架,但同时存在收敛速度慢、训练时间长的问题。一般说来,最大熵和支持向量机在正确率上要比隐马尔可夫模型高一些,但是隐马尔可夫模型在训练和识别时的速度要快一些,主要是由于在利用Viterbi算法求解命名实体类别序列的效率较高。隐马尔可夫模型更适用于一些对实时性有要求以及像信息检索这样需要处理大量文本的应用,如短文本命名实体识别。

基于统计的方法对特征选取要求较高,需要从文本中选择对该项任务有影响的各种特征,并将这些特征加入到特征向量中。依据特定命名实体识别所面临的主要困难和所表现出的特性,考虑选择能有效反映该类实体特性的特征集合。主要做法是通过对训练语料所包含的语言信息进行统计和分析,从训练语料中挖掘出特征。有关特征可以分为具体的单词特征、上下文特征、词典及词性特征、停用词特征、核心词特征以及语义特征等。

基于统计的方法对语料库的依赖也比较大,而可以用来建设和评估命名实体识别系统的大规模通用语料库又比较少。

2.7 混合方法

自然语言处理并不完全是一个随机过程,单独使用基于统计的方法使状态搜索空间非常庞大,必须借助规则知识提前进行过滤修剪处理。目前几乎没有单纯使用统计模型而不使用规则知识的命名实体识别系统,在很多情况下是使用混合方法:

  • 统计学习方法之间或内部层叠融合。
  • 规则、词典和机器学习方法之间的融合,其核心是融合方法技术。
  • 在基于统计的学习方法中引入部分规则,将机器学习和人工知识结合起来。
  • 将各类模型、算法结合起来,将前一级模型的结果作为下一级的训练数据,并用这些训练数据对模型进行训练,得到下一级模型。

这种方法在具体实现过程中需要考虑怎样高效地将两种方法结合起来,采用什么样的融合技术。由于命名实体识别在很大程度上依赖于分类技术。

2.8 知识提取

知识提取(KnowledgeExtraction)研究如何根据给定本体从无语义标注的信息中识别并抽取与本体匹配的事实知识。该技术既可以抽取出事实知识用于构建基于知识的服务,也能够为语义 Web 的实现提供必要的语义内容。因此知识抽取技术对于充分利用现有数据是非常必要的。

知识提取按照数据源类型可分类两类。

  • 结构化提取:在已经结构化的数据集中,如在Freebase、Wikidata等知识库中进行近一步的实体分类或关联挖掘,通常采用本体推理的方法实现。
  • 非结构化(半结构化)提取:数据以纯文本或者少量结构信息(如表格)的形式展现,需要提取关键实体(如人名,公司名),以及实体间关系(如张三-就职-A公司)。由于公告信息均是PDF文本信息,部分附带表格,故属于第二类。此类工作,一般通过NLP的句法分析,专家领域词表,正则系统,以及前沿的深度学习网络混合构建实现。
  • 对非结构化文档的知识抽取:由于非结构化文档数据丰富,对该类文档的知识抽取一直是知识抽取领域的研究重点。这类文档具有一定的模式,因此可以利用信息抽取(Information Extraction, IE)技术抽取其中的知识(或信息)。

按照应用领域又可划分为通用领域知识提取与专业领域知识提取。前者通常在海量文本中进行自动挖掘,实体识别被抽象为序列标注问题(Sequence Labelling),其中CRF算法(条件随机场)被证明比较稳定有效。它结合了最大熵与隐马尔科夫模型的特点,是一种无向图模型,它将句子(也就是词序列)的每个词打上一个标记,一般在词的左右开一个小窗口,根据窗口里面的词和待标注词语来实现实体提取,最后通过特征组合决定归为哪类实体。

在最近的研究中(Huang,Xu,Yu,2015),又探索出通过DNN(深度神经网络)的方法,以及将CRF与LSTM结合的BILSTM-CRF算法,准确率与召回率会有小许提高。实体关系的抽取传统采用依存关系分析的方法(Dependency Parsing),也就是句子的语法树分析,它将句子进行词性标注(POSTagging),实体识别,构建语法树,便自然构成了SPO(Subject-Predicate-Object)的三元组关系。有最新研究将关系提取抽象为知识表示学习,将句子映射到实数向量空间表示,如TransE算法(Bordes,Usunier,Garcia-Duran,Weston,Yakhnenko,2013),把实体向量化到空间,问题便表达为三元组距离的损失函数,在向量空间中优化S+P=O,即最小化S+P=O。专业领域的知识提取通常由于语料不充足或表达特殊,一般的通用算法难以直接有效应用,这是由于一般分词算法的基础词库都采用通用词库,经常把专业词错分,所以通常需要先维护一个领域词典。领域词典的构建有很多方式,一般采用先通过词性标注,TF-IDF等传统方法首先进行标注,在结合领域知识对词表进行调整。在构建好领域词典后,实体识别中可以优先采用专业词典,学习过程也可以赋予更高权重。

目前在具体工业应用中,知识提取算法主要受限于语料,所以在有丰富语料的场景中会有显著效果,如文本搜索,机器翻译,机器人问答等。在专业领域中,还不存在“一本万利”的方法,算法效果需要长时间的语料标注积累。

(三)摘要系统设计

本节首先分析公告的数据特征,进而给出算法框架与具体算法说明。

本文由奥门金沙网址发布于奥门金沙网址,转载请注明出处:耶鲁科学家成功在两量子比特间,上证信息

上一篇:没有了 下一篇:浪潮推出最新AI超级服务器,4000员工白抗议了
猜你喜欢
热门排行
精彩图文