图算法的平均案例分析的外部有效性;
阴暗环境对鱼类集体行为的影响;
空间结构城市的隔离;
通过快速无标度网络模型对多维数据集进行建模;
BEKG:建筑环境知识图谱;
情绪分析的自动标记方法比较;
通过交易网络的相关张量谱预测 XRP 价格暴涨;
通过深入研究对话线程改进了社交媒体平台上特定目标的立场检测;
影响最大化综述:基于机器学习的组合优化;
GDP竞争力的逻辑预测;
预测碰撞、在复杂环境中导航、弯腰、推动和智能手机行走:基于智能体的多功能行人动力学模型;
图算法的平均案例分析的外部有效性
原文标题: On the External Validity of Average-Case Analyses of Graph Algorithms
地址: http://arxiv.org/abs/2205.15066
作者: Thomas Bläsius, Philipp Fischbeck
摘要: 对平均案例分析的第一个批评是我们实际上并不知道真实世界输入的概率分布。因此,在某个随机模型上分析算法对实际性能没有影响。这种批评的核心是怀疑外部有效性的存在,即它假设在一些简单和干净的模型上的算法行为不会超越模型转化为实际性能的现实世界输入。通过这篇论文,我们为系统地研究外部效度问题迈出了第一步。为此,我们根据两个属性评估了六种图算法在 2745 个稀疏现实世界网络的集合上的性能;异质性(度分布的差异)和局部性(边连接已经接近的顶点的趋势)。我们将其与具有不同局部性和异质性的生成网络的性能进行比较。我们发现,网络模型的理想化设置中的性能可以很好地转化为现实世界的网络。此外,异质性和局部性似乎是影响许多图算法性能的核心属性。
阴暗环境对鱼类集体行为的影响
原文标题: Effects of shady environments on fish collective behavior
地址: http://arxiv.org/abs/2211.02677
作者: Haroldo V. Ribeiro, Matthew R. Acre, Jacob D. Faulkner, Leonardo R. da Cunha, Katelyn M. Lawson, James J. Wamboldt, Marybeth K. Brey, Christa M. Woodley, Robin D. Calfee
摘要: 尽管为理解动物群体中集体运动的潜在复杂性和出现做出了重大努力,但不同外部环境对这种运动的作用在很大程度上仍未得到探索。在这里,通过结合时间序列分析和复杂的网络工具,我们对阴凉环境对土池内鱼类(Silver Carp Hypophthalmichthys molitrix)行为的影响进行了广泛调查。我们发现遮荫鼓励鱼在白天居住,但对遮荫的偏好程度在试验和池塘之间有很大差异。鲢鱼在白天和夜间在阴凉处的速度要慢得多,并且在阴凉处的速度比在阴凉处的速度要低得多,鱼类在夜间表现出最高的持久度和速度。此外,我们的研究表明,阴影通过减少鱼群的极化、个体之间的互动次数以及当地邻居之间的稳定性来影响鱼群的聚集行为;然而,与夜间位置相比,鱼在阴凉处保持更高的局部秩序。
空间结构城市的隔离
原文标题: Segregation in spatially structured cities
地址: http://arxiv.org/abs/2211.02726
作者: Diego Ortega, Javier Rodríguez-Laguna, Elka Korutcheva
摘要: 世界上一半的人口居住在城市,城市隔离正在成为一个全球性问题。理解它的最著名尝试之一是 Schelling 模型,该模型考虑了两种类型的主体,只要验证了取决于邻居分布的转移规则,就会重新定位。本研究的主要目的是扩大我们对城市隔离社区(即隔都)的理解,扩展谢林模型以考虑经济方面及其空间分布。为此,我们考虑了由房价城市地图定义的两个社会群体和五种城市结构之间的货币差距。结果表明,在所有考虑的情况下,隔都的大小往往遵循幂律分布。对于每个城市框架,经济方面和几何特征之间的相互作用决定了贫民窟达到最大规模的位置。系统的第一步大大塑造了城市的最终面貌。此外,隔离的人口比例在很大程度上取决于货币差距而不是城市类型,这意味着隔都能够适应不同的城市框架。
通过快速无标度网络模型对多维数据集进行建模
原文标题: Modeling Multi-Dimensional Datasets via a Fast Scale-Free Network Model
地址: http://arxiv.org/abs/2211.02811
作者: Shaojie Min, Ji Liu
摘要: 与网络数据集相比,现在多维数据更为普遍。如果我们能够将多维数据集建模成具有精确网络属性的网络,同时保留原始数据集特征,我们不仅可以动态探索数据集,还可以获得丰富的合成网络数据。本文提出了一种不受网络域限制的大规模多维数据的快速无标度网络模型。所提出的网络模型是动态的,并且能够在线性时间内生成无标度图,而不管建模数据集的规模或领域。我们进一步认为,在边生成概率代表影响的动态网络中,随着网络的发展,这种影响也会衰减。我们展示了这种影响衰减现象如何反映在我们的模型中,并使用全球恐怖主义数据库提供了一个案例研究。
BEKG:建筑环境知识图谱
原文标题: BEKG: A Built Environment Knowledge Graph
地址: http://arxiv.org/abs/2211.02864
作者: Xiaojun Yang, Haoyu Zhong, Penglin Du, Keyi Zhou, Xingjin Lai, Zhengdong Wang, Yik Lun Lau, Yangqiu Song, Liyaning Tang
摘要: 随着现代设计和施工技术的快速发展,建筑环境的实践变得更加数字化。然而,从业者或学者在建筑环境中积累复杂专业知识的需求仍未得到满足。在本文中,获得了建筑环境领域的 80,000 多篇论文摘要,以构建知识图谱,在图结构数据模型中存储实体及其连接关系的知识库。为了确保知识图中实体和关系的检索准确性,我们创建了两个注释良好的数据集,分别包含 29 个关系中的 2000 个实例和 1450 个实例,分别用于命名实体识别任务和关系提取任务。这两个任务由两个基于 BERT 的模型解决,该模型在所提出的数据集上进行了训练。两种模型在这两项任务上都达到了 85% 以上的准确率。使用这些模型提取所有抽象数据,获得了超过 200,000 个高质量的关系和实体。最后,这个知识图谱被呈现为一个自主开发的可视化系统,以揭示领域中各种实体之间的关系。源代码和带注释的数据集都可以在这里找到:https://github.com/HKUST-KnowComp/BEKG。
情绪分析的自动标记方法比较
原文标题: A Comparison of Automatic Labelling Approaches for Sentiment Analysis
地址: http://arxiv.org/abs/2211.02976
作者: Sumana Biswas, Karen Young, Josephine Griffith
摘要: 为监督机器学习任务标记大量社交媒体数据不仅耗时而且困难且昂贵。另一方面,监督机器学习模型的准确性与其训练的标记数据的质量密切相关,自动情感标记技术可以减少人工标记的时间和成本。我们比较了三种自动情感标记技术:TextBlob、Vader 和 Afinn,无需任何人工协助即可将情感分配给推文。我们比较了三种场景:一种使用带有现有地面实况标签的训练和测试数据集;第二个实验使用自动标签作为训练和测试数据集;第三个实验使用三种自动标记技术来标记训练数据集,并使用地面实况标签进行测试。这些实验在两个 Twitter 数据集上进行了评估:SemEval-2013 (DS-1) 和 SemEval-2016 (DS-2)。结果表明,Afinn 标记技术使用 BiLSTM 深度学习模型获得了 80.17% (DS-1) 和 80.05% (DS-2) 的最高准确率。这些发现意味着自动文本标记可以提供显著的好处,并提出了一种可行的替代人工标记工作的时间和成本的方法。
通过交易网络的相关张量谱预测 XRP 价格暴涨
原文标题: Projecting XRP price burst by correlation tensor spectra of transaction networks
地址: http://arxiv.org/abs/2211.03002
作者: Abhijit Chakraborty, Tetsuo Hatsuda, Yuichi Ikeda
摘要: 加密资产在数字经济时代变得至关重要。 XRP 是市值较大的加密资产之一。在这里,我们为动态 XRP 网络开发了一种新的相关张量谱方法,可以为 XRP 价格提供早期指示。 XRP 钱包之间的加权有向每周交易网络是通过聚合一周的所有交易来构建的。然后通过将每周网络嵌入连续向量空间来获得每个节点的向量。从一组节点向量的每周快照中,我们构建了一个相关张量。相关张量的双奇异值分解给出其奇异值。通过与随机化对应物进行比较来显示奇异值的重要性。奇异值的演变表现出独特的行为。最大的奇异值与 XRP/USD 价格呈显著负相关。我们观察到 2018 年 1 月第一周 XRP/USD 价格峰值处最大奇异值的最小值。2018 年 1 月期间最大奇异值的最小值可以通过分解信号和噪声分量中的相关张量以及通过群落结构的演变。
通过深入研究对话线程改进了社交媒体平台上特定目标的立场检测
原文标题: Improved Target-specific Stance Detection on Social Media Platforms by Delving into Conversation Threads
地址: http://arxiv.org/abs/2211.03061
作者: Yupeng Li, Haorui He, Shaonan Wang, Francis C.M. Lau, Yunya Song
摘要: 社交媒体上的目标特定立场检测旨在将文本数据实例(例如帖子或评论)分类为目标问题的立场类别,已成为一种新兴的重要观点挖掘范式。一个示例应用是克服在抗击冠状病毒大流行时对疫苗的犹豫。然而,现有的立场检测策略仅依赖于不能总是捕捉给定目标的表达立场的个体实例。作为回应,我们解决了一项称为会话立场检测的新任务,该任务是在给定数据实例及其相应的会话线程时推断对给定目标(例如 COVID-19 疫苗接种)的立场。为理解决这个任务,我们首先提出了一个基准会话立场检测(CSD)数据集,其中包含基于香港六大社交媒体平台的实例之间的立场注释和对话线程结构。为了从数据实例和对话线程中推断出所需的立场,我们提出了一个名为 Branch-BERT 的模型,该模型将上下文信息整合到对话线程中。在我们的 CSD 数据集上进行的大量实验表明,我们提出的模型优于所有不使用上下文信息的基线模型。具体来说,与 SemEval-2016 Task 6 竞赛中的最先进方法相比,它的 F1 分数提高了 10.3%。这显示了在社交媒体平台上检测特定目标立场时结合丰富的上下文信息的潜力,并暗示了一种构建未来立场检测任务的更实用的方法。
影响最大化综述:基于机器学习的组合优化
原文标题: A Survey on Influence Maximization: From an ML-Based Combinatorial Optimization
地址: http://arxiv.org/abs/2211.03074
作者: Yandi Li, Haobo Gao, Yunxuan Gao, Jianxiong Guo, Weili Wu
摘要: 影响最大化(IM)是一个经典的组合优化问题,可广泛应用于移动网络、社交计算和推荐系统。它旨在选择少数用户,从而最大限度地扩大在线社会网络的影响力。由于其潜在的商业和学术价值,有很多研究人员专注于从不同的角度研究 IM 问题。主要挑战来自 IM 问题的 NP-hardness 和估计影响扩散的 #P-hardness,因此克服它们的传统算法可以分为两类:启发式算法和近似算法。但是启发式算法没有理论上的保证,理论设计已经接近极限。因此,几乎不可能进一步优化和提高它们的性能。随着人工智能的飞速发展,基于机器学习(ML)的技术在许多领域都取得了令人瞩目的成就。有鉴于此,近年来出现了许多利用基于机器学习的技术解决组合优化问题的新方法。这些方法具有求解速度快、对未知图泛化能力强等优点,为解决组合优化问题提供了一个全新的方向。因此,我们放弃了基于迭代搜索的传统算法,回顾了基于 ML 的方法的最新发展,特别是深度强化学习,以解决社会网络中的 IM 问题和其他变体。我们注重总结相关背景知识、基本原理、常用方法和应用研究。最后指出了未来IM研究中亟待解决的挑战。
GDP竞争力的逻辑预测
原文标题: Logistic forecasting of GDP competitiveness
地址: http://arxiv.org/abs/2211.03125
作者: Arnab K. Ray
摘要: 国民经济的 GDP 增长由逻辑函数建模。将其应用于世界银行截至 2020 年的 GDP 数据,我们预测了日本、德国、英国和印度竞争性 GDP 增长的结果,这些国家的当前 GDP 非常接近。实现了其中一项预测,到 2022 年,印度的 GDP 确实超过了英国的 GDP。我们的总体预测是,到 2047 年,印度的 GDP 将超过其他三个国家。我们认为,当贸易饱和时,人口大国(如印度)将受益于高国内消费来推动其 GDP 增长。
预测碰撞、在复杂环境中导航、弯腰、推动和智能手机行走:基于智能体的多功能行人动力学模型
原文标题: Anticipating Collisions, Navigating in Complex Environments, Elbowing, Pushing, and Smartphone-Walking: A Versatile Agent-Based Model for Pedestrian Dynamics
地址: http://arxiv.org/abs/2211.03419
作者: Iñaki Echeverría-Huarte (UNAV), Alexandre Nicolas (ILM, DR7 du CNRS)
摘要: 与其他自推进粒子相比,行人能够预测,这使他们在避免碰撞和在杂乱空间中导航方面具有优势。这些功能会因智能手机的数字干扰而受损,这是一个日益严重的安全问题。为了捕捉这些特征,我们提出了一个基于主体的连续模型,该模型依赖于决策过程的透明描述和处理接触和碰撞的机械层。在决策层,每个智能体自主地选择他们期望的速度作为感知成本的最佳值,特别是平衡前进的意愿(由地板场描述)与行走的生物力学成本和碰撞风险,评估为预期的碰撞时间。该模型总共包含不到十几个参数,其中大部分是使用独立的实验数据拟合的。数值模拟证明了该方法的多功能性,它成功地在极其多样化的场景中再现了经验观察,通常是定量的,使用一组参数。这些场景的范围从涉及一个、两个或多个主体的避免碰撞到单向和双向设置中的集体流动特性,以及通过瓶颈的疏散动态,其中接触力可以直接获得。值得注意的是,通过减少决策更新的频率,将数字干扰直接转录到模型中,足以复制流动的增强混乱性,以及更频繁的突然转弯,当“智能手机行走”行人被引入时,实验观察到。最后,模型的概念透明性使得很容易查明一些缺陷的根源,特别是它对预期的短视描述(当主体人必须穿过一群人时)和圆盘状的行人形状(当考虑到非常密集的人群时) .因此,我们的工作阐明了行人人群在有源物质系统中的独特位置。
转自:“网络科学研究速递”微信公众号
如有侵权,请联系本站删除!