学界研圈_万维书刊

651.【香樟推文3084】宗族文化如何影响产业集聚模式？

[摘要]：原文信息：Fan,H.,Li,C.,Xue,C.,&Yu,M.(2023).ClancultureandpatternsofindustrialspecializationinChina.JournalofEconomicBehavior&Organization,207,457-478.01前言读者朋友们如果这几年在坚持追踪前沿文献，无论是只聚焦经济学还是金融学乃至社会学的研究中的一种，还是对各... [发表时间：2024/1/30 17:18:42]
652.PhotoMaker：一种高效个性化定制人像照片的文生图模型

[摘要]：来自南开大学、腾讯公司和东京大学的研究团队提出了一种高效的个性化文本生成图像方法——PhotoMaker。PhotoMaker能够将任意数量的输入ID图像编码成一个堆叠的ID嵌入，以保留ID信息。作为一个统一的ID表示，这种嵌入不仅能够全面封装相同输入ID的特征，还能够容纳不同ID的特征以供后续整合。这为更多有趣且具有实际价值的应用提供可能。论文链接：https://arxiv.org/abs/2... [发表时间：2024/1/30 17:17:35]
653.WARM：提高LLM预测的整体质量和对齐

[摘要]：将基于人类反馈的强化学习（RLHF）和大型语言模型（LLMs）对齐可能会导致奖励破解，LLMs利用奖励模型（RM）中的失误来获得看似很高的奖励，却没有达到基本目标。为此，来自谷歌公司的研究团队提出了加权平均奖励模型（WARM）。实验表明，WARM提高了LLM预测的整体质量和一致性；例如，使用WARM进行微调的策略RL与使用单一RM进行微调的策略RL相比，胜率高达79.4%。论文链接：https:/... [发表时间：2024/1/30 17:15:36]
654.SpatialVLM：教视觉语言模型学会空间推理

[摘要]：来自谷歌、麻省理工和斯坦福的研究团队开发了一个自动3D空间VQA数据生成框架，可在1000万张真实世界图像上生成20亿个VQA示例。SpatialVLM以首个互联网规模的度量空间3D空间推理数据集为特色。通过在此类数据上训练VLM，大大提高了VLM在定性和定量空间VQA方面的能力。论文链接：https://arxiv.org/abs/2401.12168转自：“学术头条”微信公众号如有侵权，请联系... [发表时间：2024/1/30 17:15:09]
655.OK-Robot：基于开放知识的新型机器人框架

[摘要]：来自纽约大学和Meta公司的研究团队开发了一个名为OK-Robot的新开放知识机器人框架。OK-Robot将用于物体检测的视觉-语言模型（VLMs）、用于移动的导航原语和用于物体操作的抓取原语结合起来，为取放操作提供了一个无需任何训练的集成解决方案。OK-Robot在开放式取放任务中实现了58.5%的成功率，代表了开放词汇移动操作（OVMM）领域的最新技术水平，其性能是之前工作的近1.8倍。在更干... [发表时间：2024/1/30 17:14:41]
656.搞定logo设计，港科大提出AI辅助工具TypeDance

[摘要]：来自香港科技大学的研究团队提出了一种结合设计原则和个性化语义排版Logo设计的AI辅助工具——TypeDance。TypeDance中包含一个全面的设计工作流程，包括创意构思、选择、生成、评估和迭代等环节。通过包括模仿和创作在内的双任务用户评估，证实了TypeDance在不同应用场景下的设计实用性和可用性。论文链接：https://arxiv.org/abs/2401.11094转自：“学术头条”... [发表时间：2024/1/30 17:14:15]
657.超越Stable Diffusion：扩散模型的大规模强化学习

[摘要]：来自Pinterest公司和麻省理工学院（MIT）的研究团队提出了一种有效的可扩展算法，利用强化学习（RL）在多个多样的奖励函数（如人类偏好、组合性和公平性）上改进扩散模型。这一方法显著超过现有方法，可以使扩散模型更符合人类偏好。论文链接：https://arxiv.org/abs/2401.12244转自：“学术头条”微信公众号如有侵权，请联系本站删除！... [发表时间：2024/1/30 17:13:33]
658.OpenAI、斯坦福提出Meta-Prompting：单一模型化身“多面”专家

[摘要]：来自OpenAI和斯坦福的研究团队提出了一种旨在提升语言模型（LM）功能的有效脚手架（scaffolding）技术——Meta-Prompting。它将单一的LM转变为多功能的指挥者，擅长管理和整合多个独立的LM查询。研究团队将外部工具（如Python解释器）无缝整合到meta-prompting框架中，从而扩展了其适用性和实用性。论文链接：https://arxiv.org/abs/2401.1... [发表时间：2024/1/30 17:13:11]
659.AgentBoard：多轮LLM智能体分析评估框架

[摘要]：来自香港大学、浙江大学、上海交通大学、清华大学的研究团队及其合作者提出了一个分析评估大型语言模型（LLM）智能体的开创性的综合基准和配套开源评估框架——AgentBoard。AgentBoard在揭开智能体行为的神秘面纱和加速开发更强大的LLM智能体方面迈出了重要一步。论文链接：https://arxiv.org/abs/2401.13178转自：“学术头条”微信公众号如有侵权，请联系本站删除！... [发表时间：2024/1/30 17:11:45]
660.ConTextual：评估大型多模态模型中对上下文敏感的富文本视觉推理

[摘要]：来自加州大学洛杉矶分校的研究团队提出了一个评估大型多模态模型（LMMs）执行上下文敏感文本丰富的视觉推理能力（context-sensitivetext-richvisualreasoning）指令的新基准——ConTextual。研究表明，表现最好的LMM、GPT-4V(ision)的整体性能仍然落后于人类。论文链接：https://arxiv.org/abs/2401.13311转自：“学术头... [发表时间：2024/1/30 17:11:24]

首页 <<63 64 656667 68 69 >>尾页共7105页跳页共71047条记录

投稿问答最小化 关闭

学界研圈

651.【香樟推文3084】宗族文化如何影响产业集聚模式？

652.PhotoMaker：一种高效个性化定制人像照片的文生图模型

653.WARM：提高LLM预测的整体质量和对齐

654.SpatialVLM：教视觉语言模型学会空间推理

655.OK-Robot：基于开放知识的新型机器人框架

656.搞定logo设计，港科大提出AI辅助工具TypeDance

657.超越Stable Diffusion：扩散模型的大规模强化学习

658.OpenAI、斯坦福提出Meta-Prompting：单一模型化身“多面”专家

659.AgentBoard：多轮LLM智能体分析评估框架

660.ConTextual：评估大型多模态模型中对上下文敏感的富文本视觉推理

热门文章

本站推荐

投稿问答最小化 关闭

学界研圈

热门文章

本站推荐

投稿问答最小化关闭