由中国中文信息学会社会媒体处理专委会主办、哈尔滨工业大学承办的第七届全国社会媒体处理大会(SMP 2018)于 2018 年 8 月 2 日- 4 日在哈尔滨召开。雷锋网作为独家战略媒体带来合作报道。
SMP 专注于以社会媒体处理为主题的科学研究与工程开发,为传播社会媒体处理最新的学术研究与技术成果提供广泛的交流平台,旨在构建社会媒体处理领域的产学研生态圈,成为中国乃至世界社会媒体处理的风向标。
本届 SMP 大会主席由哈尔滨工业大学教授刘挺与伊利诺伊大学芝加哥分校教授 Philip S. Yu 担任,程序委员会主席由哈尔滨工业大学秦兵教授与清华大学刘知远副教授担任。
会议期间并行举行八大专题论坛,包括智能金融论坛、计算社会学论坛、情感分析论坛、数据挖掘论坛、计算传播学论坛、智慧司法论坛、计算历史学论坛、智能教育论坛。值得一提的是,智慧司法论坛和计算历史学论坛都为今年新增,也邀请到了许多知名学者参与交流。
8 月 4 日上午,智慧司法论坛在友谊宫国际厅拉开帷幕。法律作为一种社会行为规范体系,是现代文明的制度基石。随着自然语言处理技术的发展,并响应国家「智慧司法」战略,SMP 2018 会议第一次设立智慧司法论坛。
智能司法论坛由大连理工大学的林鸿飞教授担任论坛主席,并邀请了五位主讲嘉宾做了主题分享。
SMP 大会主席、哈尔滨工业大学人工智能研究院副院长刘挺教授受邀做智能司法论坛的开场致辞,他表示本届 SMP 举办的八大论坛,有六个和人文社科紧密相关,展现了社会媒体处理大会在信息技术与社会科学的交叉融合,而本次的智慧司法论坛可以算得上是国内最早涉足这一领域讨论的议程。随着智能司法在人工智能学术界及法学界引起的重点关注,通过这一论坛各位老师的分享,希望大家在其中也能够得到更多的启示。
首位上台演讲的嘉宾是最高人民检查院网络安全和信息化领导小组办公室副主任、检察技术信息研究中心主任赵志刚,他的演讲主题是《检察信息化的昨天、今天和明天》。
「这是最好的时代,也是最坏的时代」,他表示,检查机关正身处一场以互联网为代表的新技术革命浪潮之中,用科学、用智慧做好检察信息化,已经成为了与时俱进的必答题。
从 1991 年的数字检务 1.0 的自动化办公室,到 2000 年的网络检务 2.0,2009 年的信息检务 3.0,再到 2015 年 7 月的转型升级期后,于 2017 年最高人民检察院正式明确「智慧检务」战略,步入智慧检务 4.0 的新时期,目前已建立包括司法办案平台、检察办公平台、检察决策支持平台、队伍管理平台、检务保障平台及检务公开与服务平台为核心的电子检务平台。
他也从多个层面描述了检查信息化:
从理论体系来看,2017 年 9 月的智检会议召开,标志智慧建伍理论的基本成型。从规划体系层面,以《关于深化智慧检务的意见》、《检察大数据行动指南》(一中心四体系)、《检察人工智能创新指南》为代表的文件,目前已逐步完善战略规划的总体思路及相应的体系建设。
从应用体系层面,以「一主数辅多元」为指导,初步形成检查信息化应用体系。启动检察机关统一业务应用系统的建设,并探索以 SPAAs 为代表的智能辅助办案系统,此外还建设了如最高人民检察院大数据决策分析平台的可视化平台,满足多样化检察需要。
从创新体系层面,通过高校、企业、检察院的合作,建立实验管理中心、科研管理中心和培训管理中心,结合相应的实验室建设,检察信息化经历了一个从无到有的过程。
他最后总结,围绕智慧检务的应用层、支撑层和数据层,检察信息化也将在今后持续探索智慧检务的研究。
清华大学计算机系刘知远副教授和涂存超博士后带来了题为《面向法律智能的自然语言处理》的演讲。
刘知远表示,自然语言是法律的载体,借助高质量且形式丰富的文本数据,基于法律文本的多样需求,自然语言处理在法律领域有着众多应用前景,如智能案例检索、文书自动生成等。不过随后他也指出,目前的比较多的研究都来源于法学院的相关研究。
随后,涂存超介绍了几种利用自然语言处理技术实现法律智能的研究内容。
面向案例文书的判决预测:根据案件的案情描述,预测最终的判决结果。
拓扑结构预测的判决预测:通过法官的判案逻辑找到子任务之间的依赖关系。
引入区分性属性的罪名预测,包括低频罪名、混淆罪名的相应预测:通过引入显式的属性,能对低频罪名进行基于属性的判断,对混淆罪名进行区分;此外还能采用多任务学习及注意力机制训练基于属性的罪名预测模型。
基于层次结构的案由预测:通过刑事案由(罪名)和民事案由的层次结构,结合案由本身的文本信息,采用序列预测及基于案由名称的注意力机制,训练相应模型。
基于法律阅读理解的判决预测:由于在民事案件中判决结果需要结合原告的具体诉求,可以建立基于阅读理解机制,模仿「人带着问题找答案」的阅读理解行为进行案件判决的预测。
他表示,法律智能技术有着丰富的研究和应用前景,包括信息检索、辅助判决等多个方向。作为一种具有高度专业,富含知识的研究方向,法律智能未来仍然充满挑战。未来可以从「数据驱动+法律知识」的结合入手,驱动更多的场景应用落地。
接下来北京大学计算机科学技术研究所副教授冯岩松带来了题为《面向法律文本的自然语言分析与理解》的演讲。
他表示,法律与人工智能的渊源最早可以追溯到 20 世纪 70 年代,而随着 80-90 年代专家系统的兴起,如基于规则专家系统的辅助决策、改善法条制定为代表的研究工作也开始引起关注。
但当人工智能与法律的结合蓬勃发展之时,「专家系统」遇冷的大环境也让这一结合领域不像之前那样受到重视。但早期专家系统仍然留下了很多的宝贵经验,包括机器并不能代替法律实务工作者,应该成为信息化中的重要组成,而技术也应该以法律文书作为主要研究对象。
他提到,围绕法律文书的研究,研究者主要还是以实用性出发,以智能化为导向,引起学术界与工业界的广泛关注。典型任务包括信息获取与检索、智能辅助决策及其它基础支持(如卷宗管理、图像语音文字识别等)。
从核心应用、核心技术及法律文本资源入手,基于文本分析的法律智能在公安、检察、法院、律师等方面有着广泛研究。以代表会议 ICAIL 为例,这一会议起源于 1987 年,每两年举办一次,从 2013 年开始近几年的投稿方向来看,推理及说理、论辩的文章相对减少,而基础 NLP 分析,QA、IE、IR 以及判决预测等内容则受到了越来越多的关注,但整体还是以法律文书的分析为主体研究方向。
他也强调了在应用领域中,需要加强文本及法律推理及篇章、论辩分析两个领域的关注。
总体而言,考虑到法律领域自身的复杂性,还有 AI 及 NLP 技术的局限性,目前要利用相应技术进行实践大范围应用还存在巨大挑战。如任务性能仍然有待提高的问题,模型的可解释性问题,还有如何做到有理有据的问题。
他进一步介绍了三个探索的相应研究方向:
利用法律领域知识转化为语义分析的结构目标,边阅读边理解,利用知识进行深度解析;
结合强化学习等方法,研究者可以从文书中找出辅助决策的支持理由,进行预测结果的解释;
进一步地,可以解决标注数据有限的方法,精简专家的投入。
从技术角度,他围绕篇章理解、多源知识集成、可解释性算法、多模态数据整合、标注数据扩展等方面,分享了自己对于如上问题可能的探索方向,做到对法律文本的深度理解。
最后一位演讲嘉宾是科大讯飞 AI 研究院研究主管、司法认知智能方向负责人、资深研究员李剑锋,他的演讲主题为《司法认知智能研究实践》。
他表示,从「能听会说」到「能理解会思考」,经过近 20 年的发展,科大讯飞已经在语音合成、识别和评测上取得了领先表现,在机器翻译、阅读理解和图文识别也取得了阶段性的成果。秉承「平台+赛道」的发展战略,科大讯飞通过人工智能开放平台,在教育、医疗、司法、政务等多个领域与中小企业进行深入合作。
他分享了科大讯飞于司法行业的业务布局和相应的技术研究及挑战。
侦察办案,笔录转写
利用电话防诈骗预警系统,讯飞基于海量话单、通话语音、应用语音识别、意图理解行技术,实现诈骗电话自动分类及危害程度的准确评估。在笔录环节中,可以解决复杂多人问话、远距识音等「效率」难题和审讯审查的「赋能」问题。
图文识别,自动编目
在图文识别领域,哈工大讯飞联合实验室通过设备输入、文档图像、图像预处理、版面分析、文字识别及结果输出等环节,进行司法文书图文识别;针对公安、检察院、法院等电子卷宗材料,生成规范化、可阅读的电子卷宗文档材料。
证据分析,辅助量刑
证据分析包括查证事项抽取、问答对聚类查询等内容;而在辅助量刑中,则通过模型优化改进、提取案情要素、融入法律知识、构建知识图谱进行量刑优化。
自动量刑探索
哈工大讯飞联合实验室提出了 DRNN 模型,用 Recurrent单体代替卷积核。在保持与 CNN 类似的位置不变性前提下,增大窗口捕捉长距离信息,且不会增加参数数量,缓解了过拟合问题。这一工作发表在 ACL 2018 上。
为增加可解释性,也为了进一步提升模型效果,讯飞在抽取案情要素上也做了一些尝试,能一定程度地降低案情的检测错误率。
哈工大讯飞联合实验室还结合法官量刑步骤,构建了相应的量刑知识图谱。目前,讯飞研发了一个基于自动情节要素抽取的规则量刑器。
法律咨询小程序
面向普通大众,哈工大讯飞联合实验室开发了一个法律咨询小程序,对常见问题、法律知识提供内容参考,并进行律师推荐、案例分析与判决预测、类案推送等多项服务。
而面向司法认知的智能挑战,他也指出了目前存在的几个问题。
首先是,基于可解释性、以往判决的不一致性及数据分布造成的模型偏差,目前的司法认知需要突破统计模型的固有缺陷。
其次的一个问题是,如何有效使用行业知识?
他表示,要让机器使用行业知识,有两种方式可以探索,一是基于符号体系的规则系统;二是采用机器学习得到知识表示的统计模型。在实际应用中,应该灵活运用两种方法。
对于不同任务,对知识的需求度也有着差异。结合任务、算法和知识,未来可以从三个方面努力:
1)联合业内专家标注数据,积累数据知识;2)进一步提升算法能力;3)简化任务定义,一个是发掘技术要求低,用户价值大的应用,其次是将任务分解、细化、分而治之。
第三个挑战在于,技术水平与法官期望的距离。在这个过程中,可以打造人机协同的应用场景,让人与机器共同解决问题。
最后,林鸿飞教授为本次 SMP 2018 智慧司法论坛做总结。他表示,五位嘉宾以自然语言处理等技术应用于智慧司法领域的切入点,探讨了其研究方法及所面临的挑战,在未来,如何增加法官和检察官的智慧,如何利用技术更好地服务于人类,做好信息技术与社会科学的融合,也将成为智慧司法不断探索的重要目标。
在上午的议程结束之后,下午迎来计算历史学论坛。将计算技术用于人文和社会科学大数据的研究,已经得到学界的共识,这也是 SMP 首次举办计算历史学论坛的原因。本次论坛邀请了来自计算机和历史学领域的五位专家讲者,论坛报告的内容涉及自然语言处理技术在计算社会科学方面的最新动态、基于文本挖掘技术的中国近代思想史研究、基于中国商业广告数据库对中国现代社会的建模以及中国历代人物传记资料库(CBDB)的建设与使用。他们结合各自的领域和研究专长,探讨了计算技术和历史学可能产生的碰撞。
清华大学计算机系副教授刘知远做了主题为《语言表示学习与计算社会科学》的演讲。
他表示自己将更多从计算机角度介绍自然语言处理对历史学、计算社会科学的帮助。他谈到语言是研究人类社会的重要角度,社会语言学、社会心理学领域提出一系列通过语言分析社会的理论,其中比较知名的有 LIWC(Linguistic Inquiry and Word Count)词典。
他谈到基于关键词的计算社会科学研究,其中有几个典型案例,如通过 Google Books 中历年来使用「The United States is」和「The United States are」的统计趋势图,定量分析美国作为一个统一国家的概念是如何慢慢形成的,此外还有康奈尔大学等学者对用户在在线社区中语言使用变迁模式的研究,他提到 WWW 2013 最佳论文《no country for old members:user lifecycle and linguistic change in online communities》。
随后,他介绍了基于符号统计的计算社会科学研究。清华大学与新华社建立合作,利用关键词抽取和可视化技术分析 2013 年「两会」报告。此外,他还提到社会化标签,如用户可以给在线资源标注任意标签,标签虽然是用户任意选取的,但它们作为整体体现了丰富的语义信息。这里的应用有微博用户职业预测、微博用户重大事件监测等。
前面这些案例,他总结为前表示学习时代,即基于符号的表示,他表示,这种方法非常简单高效,但有一个重要缺陷,即无法区分任意两个对象间的相关情况,在一定程度上限制了研究弹性。
他表示,现在迎来了基于深度学习,新的分布式表示学习时代,这里的对象均被表示成稠密、实值、低维向量,他提到词汇语义变迁研究以及利用分布式表示绘制词汇大脑地图,随后他谈到基于词汇表示的人类偏见研究,2017 年 Science 上一篇论文指出,文本语料库包含可重现且准确的偏见印记,并能够被机器习得。
此外,他也谈到基于神经网络模型的抑郁检测,如 EMNLP2017 最佳论文,利用神经网络模型自动检测在线社交媒体上的抑郁倾向用户。
演讲最后,他总结了分布式表示的优势——提供了比符号表示更加强大的计算能力,具有更强更深的洞察能力,其中的关键是看如何创造性地用起来。
第二位演讲嘉宾是山东大学历史文化学院副研究员邱伟云,他的演讲主题是《词汇、概念、话语:基于文本挖掘技术的中国近代思想史研究》。
演讲伊始,他谈到思想史的定义,英国著名历史学家和政治学家史华慈表示,思想史是涉及人类整体的意识生活,即思维、感情、想象,以及各种感受的生活;思想史注重思想的出现与影响,强调思想与环境之间的关系。
随后,他谈到文本挖掘技术如何连接思想史研究。至于为什么研究的是中国近代,他表示,近代以前是文言文,语料相对较少,近代以后是白话文,语料相对较多。在上述考虑下,学者结合人文研究理论与计算机计算方法,建造出一个适合于进行思想史研究的数据库——中国近现代思想史专业数据库。这一数据库前后经历三次演进,其内容涵盖史学、文学、美学。
为了创建该数据库,搜罗的资料包括清末明初近代期刊、晚清档案资料、清末明初士大夫著述等。金观涛与刘青峰借鉴与挪用了人文领域中的关键词与观念史研究法,计算领域中的数据挖掘方法,从关键词、语言学、语意分析等视角对数据库的内容与计算功能进行调整。
而他也提到利用计算机方法,思想史数据库进行的若干研究,如分析《新青年》杂志如何推动中国近代思想从传统走向现代转型, 具体包含对民主取代共和、真理取代公理的研究。
2008 年他们转向数据驱动研究,关键因素有两点:一是意识到 2008 年前仍是使用比较简单的数字人文方法进行研究,仍不可避免要先由人文学者做出主观认定,且只能观察研究者自身觉得重要的关键词分析结果。二是 2008 年后计算机学家与数学家陆续加入思想史研究团队。
之后,他重点探讨了从人工到数据驱动的成果:其一是在转型期阶段中,团队改采数据驱动视野进行研究,确实避开了过去从人工驱动出发进行理论假设所可能产生的偏颇;其二是透过数据驱动从资料结构中自动找到资料结构自身的观念系统,客观呈现出观念系统伴随意识形态立场的变化情况,这正是转型期阶段观念史研究数据库方法的特点与长处所在。
未来,他们将在此基础上进行情感分析与思想史研究,如计算历史学能否找到支配辛亥革命/五四运动发生的主要支配情感,能否找到引发时间的情感积量权重,预测事件的爆发时间点。
南京大学艺术学院副教授陈静的两位学生李梦琦、赵寅州介绍了 CCAA 中国商业广告数据库并带来基于该数据库的一系列分析。
据介绍,中国商业广告数据库(CCAA)是一个对于 1880 年代至 1940 年代期间出版的中国五个商业条约口岸城市报纸中离散广告进行元数据化处理和专业级图像提取的扩展集合,每一条广告都是历史的文本/图像。
他们团队希望该数据库能为文化学者、历史学家等提供有用的广告数据,促进理解商业文化生活是如何在 19 世纪末 20 世纪初进入中国并渗透入历史的。广告使用了混杂了口语化的社会和科学文本的新的书写语言,描绘了历史的商品-人的关系,图像化了商品导向的世界中的现代人形象。
他们在调查中发现三个主要问题:一是很多报纸没有数字化,二是数字化的报纸和数据库不是免费开放的,三是已经数字化好的报纸,广告不如新闻重要,所以一般没有做全文转录(除了标题和日期)。
其中,考虑到的问题有三点:
第一,现代中国语言中新词的扩散与广泛使用是否与广告图像有关;
第二,中国一种新型的售卖语言在什么时候开始出现,以及怎样出现的;
第三,统计方法能给商业文本/图像中的图像发生学带来什么新发现。
研究围绕三个问题展开:一是如何使图像变得可读,二是如何将图像联系到当时的社会和文化语境;三是如何使图像生产知识,且使观者意识到他们能够理解并且习得这种知识。
之后,他们提到从数字化到知识的四个阶段,一是数字化,二是标注,三是文本挖掘,四是视觉呈现。之后,他们提到利用这一数据库展开的相关研究,例如天津《大公报》医药广告图像描述分析,通过《申报》广告图像探讨近代上海道路空间的形态及其发展。
最后一位上台演讲的嘉宾是来自北京大学中古史中心的博士生胡斌,他的演讲主题是《中国历代人物传记资料库(CBDB)的建设与使用》。
演讲伊始,他介绍了 CBDB 基本状况,这是一个关系型数据库,涵盖多个不同实体,如人名、时间、地址、著作、亲属关系、社会关系等。他表示,在关系型数据库中,人物的数据资料存在于各种实体的互动之中。大家可以点击 https://projects.iq.harvard.edu/cbdb 访问该数据库。
他谈到 CBDB 的发展历程:
郝若贝教授在 1980 年代开始搜集数据,他在 1996 年去世后,将其捐赠哈佛-燕京学社;
2004 年,傅君劢教授重新编写数据库的结构;
2005 年,哈佛/中央研究院/北大开始共同开发;
之后,该数据库项目得到多项国内外基金会的支持。
CBDB 现今包含 417382 人的数据,质量比较高的是唐宋数据。该数据库的特色在人物关系上,除了人物基本属性外,还记录了人与人之间的交往关系,共包括 10 种关系类,34 种关系子类以及 241 种关系条目。
该数据库涵盖了三方面资料,一是原始材料,包括正史列传、墓志铭、墓表等,二是当代学者整理研究的传记资料索引、郡守年表、方镇年表等,三是来自其他数据库的人物数据,如明清妇女著作(McGill)、人名权威(史语所)。
他表示,这一数据库是数字与人文领域的深度合作,数据库的建立主要分为五个阶段,一是光学字符识别(OCR),二是半人工校对数据,三是分割要处理的数据点,四是进行消歧,五是对数据进行编码。
接下来,他提到利用 CBDB 的一些应用,以下是利用该数据集可以做的三种分析:
一是群体分析、统计分析,相关案例有统计 CBDB 数据集中 32270 人的死亡年龄,统计 CBDB 资料中 3119 名女性的死亡年龄。
二是社会网络分析,三是地理空间分析,例如分析 4730 个宋代进士的籍贯。
在最后,他提到他们最近与北大信息管理系 DH 小组合作,进行唐代人物迁徙图以及相关探索。
他表示,计算历史学对人文研究提供了如下帮助:帮助提出、验证,并呈现相对复杂、具体的历史问题及其答案,快速地反复分析和呈现大批数据。这也是文献的一种新的打开方式、查询方式、呈现方式。
精彩的论坛已经结束,留给大家的思考和启发无处不在。SMP 2019 将在鹏城深圳召开,相信在新的一年将为大家带来更多精彩。雷锋网也将在现场为大家带来实时报道。
本文图片来源:哈工大 SCIR 李家琦 冯掌印,特此感谢。
雷锋网