2022/4/8 9:39:44 阅读:279 发布者:chichi77
图表示学习方法综述;
MGDCF:通过马尔可夫图扩散学习距离,用于神经协同过滤;
细分出行共享市场中的规模经济和规模不经济;
亲属关系是一种网络追踪社交技术,而不是一种演化现象;
解释多模态仇恨模因检测模型;
领导者还是追随者?爱尔兰共和军巨魔推文的时间分析;
揭示在线个人信息中的累积风险:一项数据叙事研究;
混合代码社交媒体文本的多语言滥用识别;
在 COVID-19 大流行之后采用微型交通:来自公共交通和汽车通勤者选择实验的证据;
使用统计模式对比特币交易进行混合检测;
电子商务中的大规模托单投标人检测;
SIS 流行病的普遍性从小的初始条件开始;
这个样本似乎足够好!评估 Twitter 学术 API 的覆盖范围和时间可靠性;
图表示学习方法综述
原文标题: A Survey on Graph Representation Learning Methods
地址: http://arxiv.org/abs/2204.01855
作者: Shima Khoshraftar, Aijun An
摘要: 图表示学习是近年来非常活跃的研究领域。图表示学习的目标是生成准确捕捉大图结构和特征的图表示向量。这一点尤其重要,因为图表示向量的质量将影响这些向量在下游任务中的性能,例如节点分类、链路预测和异常检测。提出了许多技术来生成有效的图表示向量。图表示学习的两个最流行的类别是不使用图神经网络 (GNN) 的图嵌入方法,我们将其称为基于非 GNN 的图嵌入方法,以及基于图神经网络 (GNN) 的方法。非 GNN 图嵌入方法基于随机游走、时间点过程和神经网络学习方法等技术。另一方面,基于 GNN 的方法是深度学习在图数据上的应用。在本次调查中,我们提供了这两个类别的概述,并涵盖了静态和动态图的当前最先进的方法。最后,我们为未来的工作探索了一些开放和持续的研究方向。
MGDCF:通过马尔可夫图扩散学习距离,用于神经协同过滤
原文标题: MGDCF: Distance Learning via Markov Graph Diffusion for Neural Collaborative Filtering
地址: http://arxiv.org/abs/2204.02338
作者: Jun Hu, Shengsheng Qian, Quan Fang, Changsheng Xu
摘要: 协同过滤(CF)被个性化推荐系统广泛使用,旨在通过历史用户-项目交互来预测用户的偏好。近年来,图神经网络 (GNN) 已被用于构建 CF 模型并显示出良好的性能。最近最先进的基于 GNN 的 CF 方法简单地将其性能改进归因于 GNN 的高阶邻居聚合能力。然而,我们观察到一些强大的深度 GNN,如 JKNet 和 DropEdge,可以有效地利用其他图任务上的高阶邻居信息,但在 CF 任务上表现不佳,这与这些基于 GNN 的 CF 研究的解释相矛盾。与这些研究不同,我们从马尔可夫过程的角度研究了基于 GNN 的 CF,用于远程学习,采用了一个名为马尔可夫图扩散协同过滤 (MGDCF) 的统一框架。我们设计了一个马尔可夫图扩散网络(MGDN)作为 MGDCF 的 GNN 编码器,它通过马尔可夫过程权衡两种类型的距离来学习顶点表示。我们展示了 MGDN 的输出与距离损失函数的最优解之间的理论等价性,这可以促进 CF 模型的优化。 MGDN 可以泛化最先进的模型,例如 LightGCN 和 APPNP,它们是异构 GNN。此外,MGDN 可以通过我们的稀疏化技术扩展到同构 GNN。为了优化 MGDCF,我们提出了 InfoBPR 损失函数,它扩展了广泛使用的 BPR 损失以利用多个负样本以获得更好的性能。我们进行实验以对 MGDCF 进行详细分析。源代码在 https://github.com/hujunxianligong/MGDCF 公开。
细分出行共享市场中的规模经济和规模不经济
原文标题: Economies and Diseconomies of Scale in Segmented Mobility Sharing Markets
地址: http://arxiv.org/abs/2204.02316
作者: Hongmou Zhang, Xiaotong Guo, Jinhua Zhao
摘要: 由一家或多家运输网络公司 (TNC) 提供的按需移动共享通过实时优化算法实现,以连接数万名司机和乘客之间的行程。在由跨国公司组成的共享出行市场中,存在网络规模经济和跨国公司之间的良性竞争这两个竞争原则,这可能导致市场“分割”。要理解这两个相互竞争的原则的实质和关系,我们需要回答由于市场的分割而产生了多少效率损失,以及与哪些因素相关。在这里,我们展示了移动共享服务的市场结构和特征的四个关键因素——出行密度(厚度)、共享允许的最大绕行(紧密度)、市场份额(不均匀性)和跨国公司的空间隔离(溶解度)—— - 与效率损失相关,表示为不同市场结构下车辆行驶里程(VMT)的差异。我们发现 1) 虽然 VMT 显示了一个简单的具有厚度的幂函数,但相应的指数项可以表示为具有紧密度的非单调函数——本质上显示了这个市场中的经济和规模不经济是如何产生的,并且看起来非常相似形成分子间势的 Lennard-Jones 模型; 2)不均匀度接近0.5(50-50市场份额),溶解度越大,效率损失越大。我们的研究结果全面分析了市场细分的低效率是如何产生的,以及如何通过市场机制设计来避免它。
亲属关系是一种网络追踪社交技术,而不是一种演化现象
原文标题: Kinship Is a Network Tracking Social Technology, Not an Evolutionary Phenomenon
地址: http://arxiv.org/abs/2204.02336
作者: Tamas David-Barrett
摘要: 一方面,亲属关系是一种普遍的人类现象,倾向于与生物相关性一致,这可能表明演化基础。另一方面,亲属关系在人群中存在异常差异,这表明了文化基础。此外,即使其基础是生物学的,亲属关系也往往过于不精确,无法有效地追踪遗传相关性,而包容性适应理论建议只关注最近的亲属,而在大多数人类文化中并非如此。正是这些相互矛盾的论点的平行有效性导致了数十年来关于该现象的定义和测量的激烈辩论。本文提供了一种新的亲属关系方法。首先,该模型表明可以生成亲属关系网络(a)源自我们物种与其他类人猿共享的基本亲属联系,但(b)由网络而不是直系亲属之外的生物逻辑驱动。其次,该模型表明,亲属关系作为一种网络启发式仅在高生育率社会中有效,并让位于人口转变的基于相似性的友谊。结果解释了(i)为什么亲属标签对我们的物种来说是独一无二的,(ii)为什么亲属关系在人类文化中普遍存在,(iii)为什么亲属关系术语系统在不同文化中是不同的,(iv)为什么语言亲属分配不精确,以及( v) 为什么在亲属稀缺的情况下,亲属关系被同质性所取代。该模型为社会和演化人类学之间关于人类亲属关系概念的辩论提供了一个统一的框架。
解释多模态仇恨模因检测模型
原文标题: On Explaining Multimodal Hateful Meme Detection Models
地址: http://arxiv.org/abs/2204.01734
作者: Ming Shan Hee, Roy Ka-Wei Lee, Wen-Haw Chong
摘要: 仇恨模因检测是一项新的多模式任务,在学术和行业研究社区中获得了显著的关注。最近,研究人员已经应用预训练的视觉语言模型来执行多模态分类任务,其中一些解决方案已经产生了有希望的结果。然而,这些视觉语言模型在仇恨模因分类任务中学到了什么仍不清楚。例如,尚不清楚这些模型是否能够捕捉到仇恨模因的多模态(即图像和文本)中的贬义或诽谤引用。为了填补这一研究空白,本文提出了三个研究问题,以提高我们对这些执行仇恨模因分类任务的视觉语言模型的理解。我们发现图像模态对仇恨模因分类任务的贡献更大,并且视觉语言模型能够在一定程度上执行视觉文本连线接地。我们的错误分析还表明,视觉语言模型已经获得了偏差,从而导致了假阳性预测。
领导者还是追随者?爱尔兰共和军巨魔推文的时间分析
原文标题: Leaders or Followers? A Temporal Analysis of Tweets from IRA Trolls
地址: http://arxiv.org/abs/2204.01790
作者: Siva K. Balasubramanian, Mustafa Bilgic, Aron Culotta, Libby Hemphill, Anita Nikolich, Matthew A. Shapiro
摘要: 互联网研究机构 (IRA) 影响美国的在线政治对话,加剧了现有的党派分歧并播下不和。在本文中,我们通过分析 Twitter 上的趋势术语来研究 IRA 的沟通策略,以确定 IRA 领导或跟随其他用户的案例。我们的分析重点关注 2016 年至 2017 年间来自 IRA 用户 (n=3,613)、记者 (n=976)、国会议员 (n=526) 和公众政治参与用户 (n=71,128) 发布的超过 3800 万条推文.我们发现 IRA 倾向于在与 2016 年选举、种族和娱乐相关的话题上处于领先地位,这表明这些领域既具有战略重要性,又具有最大的潜在影响。此外,我们确定了 IRA 相对无效的主题,例如关于军事、政治丑闻和暴力袭击的推文。尽管有很多关于这些话题的推文,爱尔兰共和军很少领导对话,因此几乎没有机会影响它。我们提供我们提出的方法作为一种实时跟踪未来影响行动的战略选择的方法。
揭示在线个人信息中的累积风险:一项数据叙事研究
原文标题: Revealing Cumulative Risks in Online Personal Information: A Data Narrative Study
地址: http://arxiv.org/abs/2204.01826
作者: Emma Nicol, Jo Briggs, Wendy Moncur, Amal Htait, Daniel Carey, Leif Azzopardi, Burkhard Schafer
摘要: 当个人在线可用的个人信息中的片段随着时间的推移和跨多个平台连接时,这种更完整的数字追踪可以让人们对他们的生活和观点产生意想不到的见解。在对 26 名当前就业参与者的数据叙述访谈研究中,我们检查了当其他人加入他们的在线信息之间的点时对个人和雇主造成的风险和危害。我们讨论了从我们的分析中构建的可见性和自我披露、无意信息泄露和数字隐私素养等主题。我们不仅对人们在回忆和概念化他们的数字踪迹方面的困难提供见解,而且对随后设想如何将他们的在线信息组合或(重新)识别他们的踪迹提供见解,并通过表明缺乏意识来解决当前研究中的空白个人信息可能被他人关联并与他人/被他人保持一致,从而对个人、雇主甚至国家构成风险。我们谈到了不同群体在网上提供(或感到被迫提供)的东西方面存在的隐私、自由和合法性的不平等,我们为当前关于使用素描来支持数据叙述中的视觉意义制作的方法论工作做出贡献采访。最后,我们讨论了干预措施的必要性,这些干预措施支持个人反思组合数字痕迹的潜在可见性,以突出隐藏的漏洞,并促进对在线共享和不共享的内容采取更积极主动的行动。
混合代码社交媒体文本的多语言滥用识别
原文标题: Multilingual Abusiveness Identification on Code-Mixed Social Media Text
地址: http://arxiv.org/abs/2204.01848
作者: Ekagra Ranjan, Naman Poddar
摘要: 随着时间的推移,社交媒体平台的使用率一直在增长。随着过去一年人们的互动、对话和表达受到限制,这种增长进一步加速。为了更好的用户体验,保护平台免受滥用内容的影响变得越来越重要。在英语社交媒体内容方面已经做了很多工作,但对非英语社交媒体的文本分析相对来说还没有得到充分探索。非英语社交媒体内容具有代码混合、音译和在同一句子中使用不同经文的额外挑战。在这项工作中,我们提出了一种在由印度语言组成的多语言 Moj 数据集上进行滥用识别的方法。我们的方法解决了非英语社交媒体内容的共同挑战,也可以扩展到其他语言。
在 COVID-19 大流行之后采用微型交通:来自公共交通和汽车通勤者选择实验的证据
原文标题: Microtransit adoption in the wake of the COVID-19 pandemic: evidence from a choice experiment with transit and car commuters
地址: http://arxiv.org/abs/2204.01974
作者: Jason Soria, Shelly Etzioni, Yoram Shiftan, Amanda Stathopoulos, Eran Ben-Elia
摘要: 按需出行平台在城市出行系统中发挥着越来越重要的作用。影响仍然存在争议,因为这些平台提供个性化和优化的服务,同时也有助于现有的可持续性挑战。最近,出现了微型交通服务,有望将集合按需乘车的优势与更可持续的固定路线公共交通服务相结合。理解旅客行为成为分析采用可能性和对不同微交通属性的看法的主要焦点。 COVID-19 大流行背景为分析移动创新接受度增加了额外的复杂性。本研究调查了大流行背景下对微型交通选择的潜在需求。我们使用声明选择实验来研究以色列公共交通和汽车通勤者在提供使用新型微交通选项(轿车与客车)时的决策。我们调查了与传统票价和旅行时间属性以及微交通功能相关的权衡;即步行到接送地点的时间、车辆共享、等待时间、最短提前预订时间和指定上车地点的避难所。此外,我们分析了两个潜在的结构:对分享的态度,以及与 COVID-19 大流行相关的经验和风险认知。我们开发了综合选择和潜在变量模型,以比较两个通勤群体转向微公交的可能性、属性权衡、共享偏好和流行病影响。结果显示,与过境通勤者对 COVID 收缩风险的相对不敏感相比,汽车通勤者的几次高弹性和 COVID 效应。此外,对于汽车通勤者来说,那些具有强烈共享身份的人更有可能在 COVID 风险情况下感到自在,并接受微交通。
使用统计模式对比特币交易进行混合检测
原文标题: Mixing detection on Bitcoin transactions using statistical patterns
地址: http://arxiv.org/abs/2204.02019
作者: Ardeshir Shojaeenasab, Amir Pasha Motamed, Behnam Bahrak
摘要: 加密货币之所以受到广泛关注,主要是因为他们提出的匿名在线支付方式。与此同时,比特币和其他主要加密货币也遭受了严重的去匿名化攻击。为理解决这些攻击,比特币贡献者引入了称为混合器或滚筒的服务。混合或洗衣服务旨在将匿名性返回网络。在这项研究中,我们解决了由于使用混合服务而导致比特币和其他加密货币网络中资金足迹丢失的问题。我们设计了一些方法来跟踪这些服务的交易和地址以及脏钱和清洁钱的地址。由于缺乏标记数据,我们不得不与这些服务进行交易并准备标记数据。使用这些数据,我们找到了可靠的模式并开发了一种集成算法来检测比特币网络中的混合交易、混合地址、发送者地址和接收者地址。
电子商务中的大规模托单投标人检测
原文标题: Large-Scale Shill Bidder Detection in E-commerce
地址: http://arxiv.org/abs/2204.02057
作者: Michael Fire, Rami Puzis, Dima Kagana, Yuval Elovici
摘要: 用户反馈是建立和维护电子商务平台信任的最有效方法之一。不幸的是,不诚实的卖家经常弯腰操纵用户的反馈或进行虚假出价,以增加自己的销售额并损害竞争对手。用户反馈的黑市,在大量竞标者的支持下,在合法电子商务的基础上繁荣发展。在本文中,我们通过分析执行了数十亿笔交易的数亿用户,基于大规模数据调查了先令投标人的生态系统,并提出了一种基于机器学习的方法来识别有条不紊地提供不诚实反馈的用户社区.我们的结果表明:(1)可以根据交易和反馈统计数据高精度地识别先令投标人; (2) 与合法的买家和卖家相比,先令投标人形成了相互支持的集团。
SIS 流行病的普遍性从小的初始条件开始
原文标题: Universality of SIS epidemics starting from small initial conditions
地址: http://arxiv.org/abs/2204.02092
作者: Dániel Keliger
摘要: 我们正在研究大型网络上的确定性 SIS 动态,仅从少数受感染的个体开始。在温和的假设下,我们表明,当初始条件足够小时,无论感染在开始时如何分布,任何两条流行曲线在同一网络上并具有相同参数在时间平移之前几乎相同。从无限过去开始且流行率极低的流行病的极限被确定为将无病状态与流行平衡连接起来的非平凡永恒解决方案。我们的框架涵盖了几个基准模型,包括 N 交织平均场近似 (NIMFA) 和非均匀平均场近似 (IMFA)。
这个样本似乎足够好!评估 Twitter 学术 API 的覆盖范围和时间可靠性
原文标题: This Sample seems to be good enough! Assessing Coverage and Temporal Reliability of Twitter’s Academic API
地址: http://arxiv.org/abs/2204.02290
作者: Juergen Pfeffer, Angelina Mooseder, Luca Hammer, Oliver Stritzel, David Garcia
摘要: 由于愿意与学术界和工业界共享数据,Twitter 在过去十年中一直是科学研究以及企业和政府咨询的主要社交媒体平台。近年来,一系列出版物对 Twitter 的 API 进行了研究和批评,Twitter 已经部分调整了其现有的数据流。最新的 Twitter API for Academic Research 允许“访问 Twitter 的实时和历史公共数据,以及支持收集更精确、完整和公正数据集的附加特性和功能。”此 API 的主要新功能是可以访问所有历史推文的完整存档。在本文中,我们将仔细研究 Academic API 并尝试回答两个问题。首先,使用 Academic API 收集的数据集是否完整?其次,由于 Twitter 的学术 API 会在收集数据时提供 Twitter 上表示的历史推文,因此我们需要理解由于推文和帐户从平台上删除而随着时间的推移丢失了多少数据。我们的工作表明 Twitter 的学术 API 确实可以基于各种搜索词创建(几乎)完整的 Twitter 数据样本。我们还提供证据表明 Twitter 的数据端点 v2 比以前使用的端点 v1.1 提供了更好的样本。此外,在研究现象时使用 Academic API 收集推文,而不是创建存储的推文的本地档案,可以直接遵循 Twitter 的开发者协议。最后,我们还将讨论学术 API 的技术工件和影响。我们希望我们的工作可以增加对 Twitter 数据收集的另一层理解,从而通过社交媒体数据对人类行为进行更可靠的研究。
声明:Arxiv文章摘要版权归论文原作者所有,机器翻译后由本人进行校正整理,未经同意请勿随意转载。本系列在微信公众号“网络科学研究速递”(微信号netsci)和个人博客 https://netsci.complexly.cn (提供RSS订阅)进行同步更新。个性化论文阅读与推荐请访问 https://arxiv.complexly.cn 平台。
如有侵权,请联系本站删除!