机器学习时代何以需要人文

2018年成为公民不容易。我们被告知要注意机器人和偏见...

t 2018年公民并不容易。我们被告知要注意机器人和有偏见的搜索引擎,但是对新媒体的怀疑也使我们容易成为老式宣传的牺牲品。众所周知,唐纳德·特朗普通过诉诸这种怀疑来驳斥批评,声称大多数新闻来源是假的,“谷歌搜索对他有偏见。

如果民主取决于知情的公民,民主陷入困境。对许多机构来说,这是一个危机时刻,包括高等教育,特别是在英语等学科,哲学,和历史,它承诺为学生作为公民做好准备。让学生为信息被计算机过滤的世界做好准备,我们需要加强人文和数学之间的联盟。这个联盟有两个相互影响的部分:对塑造我们世界的数学模型的文化批评,以及关于文化的数学探究。

传统的人文技能仍然很重要,当然:我们仍然需要仔细检查假设和评估论据。但是,21世纪公民所面临的挑战并不总是一个接一个要评估的论点。信息更有可能以级联的形式出现,在朋友的网络和预测我们喜好的统计模型的指导下。评估来源一个接一个不一定会告诉我们这些计算和社会系统是否给我们一个有偏见的画面。相反,我们需要考虑样品和模型——换句话说,betway体育提现关于数学.数学可能曾经看起来是一个专门的科学工具。但在21世纪,文化和政治越来越多地被称作统计推断的自动化形式所普及机器学习。”不懂英语的学生很难理解日常生活。

而且很容易误解机器学习。首先,许多关于这个话题的畅销书和文章鼓励读者讨论算法,这是不正确的单词是辩论。一个算法只是一个recipe-a一系列步骤在解决一个问题。“把鸡蛋分开,然后打败白人是一个算法。20世纪以来,关于计算机的谈话深深地受到计算机只能遵循人类指令这一真理的影响,,算法成为一个强有力的时髦词。每当计算机被用来做某事时,记者说它已经完成”按算法——可能在技术上是正确的。但是,最近几十年允许计算重塑日常生活的创新不应该被理解为大量的新算法。我们已经朝着一个计算机控制方式不太明确的系统发展。代替手动编写的算法直接控制电脑的决定,我们经常要求计算机通过以下方式编写自己的指令建模要解决的问题。

过滤垃圾邮件的电子邮件,例如,任务定义很差。不想要的电子邮件有许多不同的形状,而且很难写出一个算法来捕捉它们。更灵活的方法开始于收集人类读者拒绝的消息的例子,随着他们批准的消息。然后我们要求计算机编写自己的指令,通过观察两组之间的差异。例如,计算机可以列出在被拒绝的电子邮件中常见的单词(betway体育提现自由的,,提供,,C1LARS以及测量在被拒绝或接受的消息中看到它们的相对概率。然后它可以使用这个垃圾邮件的描述-这个统计模型这个概念-过滤传入的电子邮件。因为betway体育提现自由的提供出现在许多合法的环境中,该模型不会是一个简单的拒绝包含特定单词的消息的流水线算法。betway体育提现它更确切地从大量线索(每个线索都是模糊的)中收集证据,以估计消息是垃圾邮件的概率。

浏览

不可见算法,无形政治

劳拉·福拉诺

不要给计算机明确的指令,这种方法,被称为“机器学习,“要求他们掌握在证据中隐含的模糊模式。图案是模糊的,部分地,因为计算机经常从人的行为中学习,不遵守严格的规定。但是需要不精确,更根本的是,从数学学习。学习一门语言,幼儿必须从特定的示例(熟悉的tabby cat)归纳为更宽松的类别(动物)这需要减去细节,动物并不总是tabby-colored以来,不要总是咕噜咕噜的,等等。我们可能没有意识到学习需要减法,因为遗忘细节是人类的天性。但是计算机发现记住细节很容易,因此,如果我们想让他们掌握一般模式,我们必须明确地告诉他们将一长串电子邮件(或动物)压缩成一个有用的模糊模型。机器学习的成功不仅取决于收集数据,还取决于压缩数据,但第二个,减法步骤是统计学家所称的部分学习。”“

机器学习日益塑造着人类文化:我们投的票,我们看的节目,这句话我betway体育提现们类型在Facebook上成为食物的人类行为模型,这反过来又塑造了我们在网上看到的东西。因为这个周期可以放大现有的偏见,任何对当代文化的批判都需要包括对机器学习的批判。但是为了让学生为这个新世界做好准备,我们需要做的不仅仅是摇动手指,警告他们算法有问题。人们对科技的普遍怀疑不一定能帮助人们理解媒体,正如总统最近对有偏见的搜索引擎和假新闻的攻击所表明的那样。告诉学生新技术出来愚弄他们只会使他们渴望一种简单的治疗方法——所谓的”红色药丸。”(事实上,达纳·博伊德认为,教媒体素养的尝试往往会以这种方式适得其反。)适当谨慎,不屈服于偏执狂,学生需要了解的限制和技术的有效应用。人文主义者可以对这个教育项目的两半作出贡献,因为我们已经熟悉了机器学习的一个核心应用——建模模糊的任务,闪光模式隐含在人类行为。这也是人文学科的中心目标。

这听起来可能很奇怪,如果我们相信数学与历史和文学格格不入的成见。但是人文主义者总是比刻板印象所暗示的更加灵活:经济历史学家,例如,经常使用数字。文化历史学家还没有过去,因为在20世纪,简单的定量方法并不能真正地解释文化。我们不能编写一个简单的算法来识别文学流派,例如,因为大多数体裁缺乏清晰的定义。关于这个话题的谦逊来之不易:二十世纪的几十位批评家花了数年的时间试图作出定义。科幻小说,“在批评者承认这个短语在不同的时间有不同的含义之前。学者们已经不情愿地放弃了对统一体裁的基本特征的追求,为了承认体裁是松散的家庭相似性,由许多重叠的特征组织,并将其含义从一个十年改变到下一个十年。

让学生为信息被计算机过滤的世界做好准备,我们需要加强人文和数学之间的联盟。

这种概念听起来可能很模糊,不科学。但是机器学习也可能是滑的和不科学的。记住我们诉诸机器学习因为我们不能发明一个简单的,垃圾邮件的通用定义。相反,我们必须利用人类读者拒绝电子邮件的隐性知识的一系列原因。基于这种证据的模型永远不会稳定。它必须每隔几年更新一次,随着旧骗局的消亡和新骗局的出现。简而言之,最近关于有偏向算法的警告低估了机器学习的真正局限性,这种局限性比任何偶然的偏向都要严重。模型由人类行为的例子必要地特定文化背景的模型。他们永远无法提供永恒的客观性;这不是人类文化提供的。

这意味着帮助学生理解历史知识的优点和局限性也可以是帮助他们理解机器学习的优点和局限性的一种方式。事实上,模糊,机器学习产生的上下文特定模型与历史学家在文化中瞥见的家族相似性有很多共同之处。(例如,两种模式都倾向于由许多重叠的线索来定义,不是一个基本特征)所以,机器学习在文化史上被证明是有用的,这并不奇怪。霍伊特·朗和理查德·琼·索用它来追踪俳句在现代主义诗歌中的传播。凯瑟琳·博德一个虚构的世界比较不同的模式来解释19世纪澳大利亚和美国作家是如何与英国传统相背离的。安德鲁·派珀氏枚举甚至用这些方法来梳理关于windows对内向女主角的特殊吸引力的见解。

不是每个学生都需要关心这些具体的例子,但是每个学生都需要一些关于统计模型的实践经验,这些统计模型是我们文化的核心。和每个学生需要了解这些模型受限于相同语境条件,使历史学家和文学评论家如此谨慎。技术领导人认为,机器学习比其他更客观知识不能信任。但是我们应该强烈不信任政治领导人谁使用互联网的透视的复杂性意味着真正的知识是不可能的,一切都是假的,我们只能依靠亲和力和偏见。通过比较来自不同社会背景的视角,有可能建立真正的知识。历史学家早就知道该怎么做了。由于我们对当前情况的了解越来越多地通过针对特定目标市场的统计模型过滤,我们可能需要同样的比较策略来理解我们自己的生活。更根本的是,我们需要认识到,历史学家的谨慎和相对主义的传统并不与闪耀的计算机新世界格格不入。

浏览

大图景:错误信息社会

维克多·皮卡德

这种人文和科学之间的桥梁可能很快具有巨大的重要性。但是大学还没有向学生解释这些。相反,我们通常试图与技术相关的文化变化融入现有的一些纪律。“数字人文,“例如,可以很容易地成为历史和英语部门内部冲突的一个内向的名字。这些冲突对教授比对学生更重要;学生真正需要的是学科之间的新联盟。这种联盟的参与者不必失去各自的身份,但是他们确实需要握手。学生可以学习如何使用机器学习主要在定量学科-在信息科学,或者在新的交叉学科领域的数据科学。他们可能转向人文学科,以便将新方法应用于文化问题,或为了反映历史和社会影响的方法。

学科之间新的联系不会取代历史的传统优势,哲学,艺术,以及文学,但是,人本主义者和科学家正在共同致力于一个教育项目的新假设仍然代表了一个巨大的变化。在20世纪的大部分时间里,这所大学的这些部分自认为是(民事)反对者。科学教你怎样克隆T雷克斯,就像一张熟悉的海报上所说的。人文学科教你为什么?你不应该。这是一个聪明的故事但我们需要超越。我们这个世界上真正的怪物不是我们可以避免制造的恐龙。这是人类的历史,已经碎了,已经很贪婪,很难预测。为了理解它,为了理解我们自己,我们需要数字和词汇。betway体育提现人文主义者对这场斗争有很多贡献,因为我们比任何人都了解怪物的过去,更了解它的滑溜溜。对于数字的健康怀疑是我们摆在桌面上的一件事,但我们提供的不仅仅是怀疑。我们也可以和科学联合起来,向学生展示统计推断和历史解读是盟军,生活中相互交织的部分致力于理解。


我给你们留下一些进一步阅读的建议。机器学习不仅是一门新技术,而且是近代思想史上的一个转折点。为了对这种观点进行全书式的探讨,我建议阿德里安·麦肯齐,,机器学习者:数据实践的考古学(2017)。实践经验,最好的起点往往是数据科学8:材料数据,在加州大学伯克利,可以在线获得。从计算和社会科学家身上也可以学到很多东西,他们反思自己领域的历史。利奥·布莱曼的前几页“统计建模:两种文化“给出一个与机器学习相关的哲学张力的简短历史。有价值的关键在一篇文章可以找到danah boyd和凯特·克劳福德称为““大数据的关键问题."机器学习对人文学科尤其是人文学科的影响仍然在讨论之中:查阅本文注释的作品,或者我自己即将出版的书遥远的地平线(2019)。

这篇文章是由理查德·让·苏.图标

  1. 看,例如,凯西·奥尼尔,,数学毁灭武器:大数据如何增加不平等并威胁民主(王冠,2016)。γ
  2. 论传媒批评与“三农”的关系红丸”偏执,看到达纳·博伊德,““你认为你想要媒体素养……是吗??,““点,,3月9日,2018.γ
  3. 约翰·里德,“关于SF的定义,还是没有:体裁理论,SF和历史,““科幻研究,卷。37,不。2(2010)。γ
  4. 泰德·安德伍德,““体裁的生命周期,““文化分析杂志,5月23日,2016。γ
  5. 一位著名的机器学习历史学家强调,它的出现是必须的。创造新的认识论美德……有时与长期以来关于统计严谨的观点相冲突。”马修·琼斯,“查询存档:从Apriori到PageRank的数据挖掘,““档案中的科学:过去,礼物,期货,洛林·达斯顿(芝加哥大学出版社,2017年),聚丙烯。311—3。γ
  6. 霍伊特·朗和理查德·琼·苏,“文学模式识别:近距离阅读与机器学习的现代性““批判性调查,卷。42,不。2(2016)。γ
  7. 凯瑟琳·波德,小说世界:数字收藏与文学史的未来(密歇根大学出版社,2018)聚丙烯。157—97。γ
  8. 安德鲁•派珀,列举:数据和文学研究(芝加哥大学出版社,2018)聚丙烯。138 - 43。γ
特征图像: 机器人奏鸣曲(2018)。弗兰克五世的照片。防溅