爬了一年AI文章,写了这篇人工智能年度分析报告

73990 28

就在昨天国家发布了《AI 的三年发展计划》 ,国家对人工智能的发展非常重视, 人工智能技术已经是体现国家综合实力的关键技术。 在2017年接近尾声, 我们回顾一年人工智能的发展,本报告让你能纵观这一年人工智能的关键事件和宏观趋势,或许可以让你从中获得启示。

简述

此份报告是用人工智能的技术分析最近一年网络上关于人工智能的文章而生成的。文章来源于智众互动的新闻机器人爬虫,每天专门爬互联网上的人工智能文章,累积了一年时间。  此报告由智众互动、优才学院、智能产业学会联合发布。

 

分析步骤

 

      整个分析过程是采用机器学习深度学习的算法,对文档进行分析,并用程序进行图表画。

 

 

     机器人爬虫抓取的文章种类有资讯文章,少部分的技术文章,本报告重点分析资讯相关的文章。

 

 

  • 资讯文章来源:36kr、新智元、机器之心等媒体和微信公众号

  • 机器人抓取时间:从16年10月开始。

 

过去的这一年里

 

  • 关于人工智能举办的活动共有573场(机器人抓取的活动行数据)

  • 关于人工智能的硬件产品在硬蛋平台上发布的有98个

  • 在36kr平台上关于人工智能的文章有2098篇(其中,对36kr的文章按不同主题进行统计,发现涉及早期人工智能创业项目的文章数量最多,有427篇。)

 

 

   我们首先将所有的文章用TF-IDF算法进行词频统计。形成如下词云图:

 

(上图机器人形象是由智众互动研发的小墨机器人的外观轮廓)

 

    词频统计中发现

 

  1. 媒体除了关注机器人和音箱,还对医疗和汽车行业很关注,金融行业的智能投顾倍受关注。

  2. 在国内的公司中,百度人工智能相关文章多于腾讯和阿里;在国外,苹果公司相关的文章数多余谷歌和亚马逊。

 

      资讯文章对人工智能的报道,集中在音箱、医疗、汽车、金融这几个行业,下图为每月各行业在资讯文章中的权重。

 

 

 

   本报告从两个纬度来分析过去一年人工智能的发展情况:

 

  1. 从时间序,分析每月的词频权重,发现每月发生的新事;

  2. 从行业角度分析,发现每个行业的新兴产品和公司以及他们投融资情况。

 

由于篇幅较长,我们会分为三次发布:

第一部分:对概况进行说明。

第二部分:按时间序分析一年发生的人工智能大事件

第三部分:按行业角度分析。

 

现在你阅读到的是第一部分。 

后面两部分会在智众互动和优才学院公众号陆续发布,敬请订阅。  

 

 

      按时间序,我们知道了每个月的关键词权重, 将这一年碎片化的资讯报道连起来形成故事,这样能从微观事件中看出一些宏观的趋势变化,找到引发趋势的导火索事件,下面举几个例子:

 

    • 在今年音箱很受人关注,但今年上半年媒体关注音箱并不多,我们通过词频分析发现音箱这个词是6月份开始被媒体频繁提及,6月份发生了什么事情呢?6月6日,苹果在开发者大会上发布了发布智能音箱HomePod,与亚马逊的Echo、谷歌的Home形成三足鼎立。这可能是导火索事件引发大量媒体将焦点聚焦在智能音箱。再加上阿里和小米紧跟其后在7月份发布各自的音箱天猫精灵和小爱同学,从而让智能音箱的热度持续上升。

 

 

  • 我们发现“量子”这个词在人工智能资讯中也权重很高,大量的报道在分析量子计算机,导火索事件又是什么呢?我们发现“量子”这个词首次出现是在16年的11月,当时发生了什么? 那是因为微软在这个月动了真格:投入巨资开发量子计算机。聚集顶尖量子物理学家打造拓扑量子样机。这引发了媒体在后面的2-3月持续的讨论量子计算机,报道各种量子计算机的论文和实现原理。

 

  • 大家对智能手表的关注是从16年12月开始的,这个月瑞士手表发布了一份报告,称自己出口额逐年下降,相比去年跌幅达16.4%,从而掀起了媒体对传统手表与智能手表的讨论。这是一条负面消息引发的热潮,同样由负面消息引起的热潮的还有“医疗”。

 

  • 医疗这个词在全年的权重都很高,而首次出现是在17年的2月份,  2月份发生了什么事情呢?2月份本来是中国的春节,事件并不多,然而就在这个月百度宣布裁撤医疗事业部,由于李彦宏多次表现出对医疗行业的重视,此事令外界哗然。从此之后今年的医疗就一直备受媒体和资本关注,也出现了很多医疗的创业团队。今年医疗很热,从时间序上看百度裁撤医疗事业部有可能是导火索。

 

     本报告采用人工智能的技术,对机器人爬去的文章进行分类,分类的算法采用LDA和LSI,大概出了:医疗、汽车、音箱、投融资、智能产品、科学技术等几类。同时用神经网络对文章进行word2vec词向量训练,通过词向量也能分析出很多有意思的东西。 

 

     词向量能让相近的词在向量空间中距离也相近。我们可以通过词向量发现某个领域的新产品和公司。

 

 

拿金融举例:

 

 

 

    我们在向量空间中找和“金融”相近的此, 出现p2p、信贷、会计这些相近词都是我们熟悉的, 但发现出现了一些我们不常见的关键词, 如云锋,李婷,威科、程立等词。

 

     经查原文得知,云锋是是香港的金融集团在今年发布过多款智能投顾产品,李婷是云锋的CEO,威科是荷兰已经建立了180年的金融集团,程立是蚂蚁金服的CTO。

 

      这些词都是相关的,通过词向量就能挖掘这个行业下的公司、产品和人物,拿金融行业举例。 我们本来对金融行业不了解,但经过简单的分析知道以下信息: 

 

  • 智能投顾的鼻祖是Betterment

  • 今年被媒体提及的智能投顾的产品有:

  • 香港云锋金融的有鱼智投

  • 来自多伦多的智能投顾平台Weathsimple

  • 北京的理财魔方

  • 德国线上理财平台Cashboard

  • 提供海外金融智能投顾的海鲸金融

  • 招商银行也推出智能投顾平台:摩羯智投

  • 金融聊天机器人也备受关注,典型的产品有:Fintech和Ernes

  • 美国规模最大的上市投资管理集团是贝莱德集团

  • 黑石集团(The Blackstone Group)是全球最大私募股权基金之一

 

    很多人认为人工智能和大数据离自己很远!,公司是一个小公司没有大数据,用不上人工智能。 而然现在是一个信息爆炸的时代,数据到处都是,我们可以爬互联网的数据,爬竞争对手的数据做成很多有意思的人工智能产品。

 

    很多人认为人工智能就是学人!  要像人一样有耳朵的能力,所以加上语音识别,要像人一样有眼睛的能力,所以加上图片识别。甚至一些人认为人工智能产品就只是加语音识别,图片识别,这是把人工智能的技术局限了,人工智能不应该只是学人, 而是学数据,每个企业都应该先看看自己有什么数据,而不是跟风的去学人, 大量有用的数据躺在企业的Excel中

 

    人工智能是新电力!将接入千家万户中,每个人都应该了解人工智能技术,从而知道如何利用好人工智能,但…  它不同于以往的互联网技术,它的入门门槛太高了,  大量的数学公式,要了解统计学、微积分、线性代数。数学底子差的人就入门不了了?   智众互动CEO罗飞将在优才学院公开课上为优才学员、vipkode学员以及感兴趣的朋友呈现一场通俗易懂的人工智能入门课(没有大量的数学公式),公开课时间为时间是下周一(12月28日)晚上8点。我们会在公开课上说明此份报告的分析过程和所用关键技术,本报告的第二章与第三章会在公开课后陆续发布。

 

 

    编程应该从娃娃抓起!以前家长给孩子报音乐、美术等兴趣班,而家长们认为编程太难孩子肯定学不会,人工智能更难他们更听不懂,我们要做一堂突破AI门槛的公开课,甚至是孩子也能听懂,欢迎家长们陪着孩子一起听。 从小培养接触前沿技术,培养孩子编程兴趣,从现在做起!

 

 

欢迎搜索关注钱塘号的微信公众号: 定时推送,福利互动精彩多

16

相关阅读

评论
评论

0/500

最新评论

点击加载更多评论
X

请先登录

登录
忘记密码?

没有注册? 注册

已有账号登录
X

注册

>>>请拖动滑块完成拼图>>>

注册
已经注册? 登录
X

找回密码

>>>请拖动滑块完成拼图>>>

确定