Discuz! Board

 找回密碼
 立即註冊
搜索
熱搜: 活動 交友 discuz
查看: 5|回復: 0

究和医学教育中发挥着至关

[複製鏈接]

1

主題

1

帖子

5

積分

新手上路

Rank: 1

積分
5
發表於 2024-4-27 16:57:18 | 顯示全部樓層 |閱讀模式
屏幕用户界面 (UI) 和信息图表(例如图表、图表和表格)在人类交流和人机交互中发挥着重要作用,因为它们促进了丰富的交互式用户体验。 UI 和信息图表共享相似的设计原则和视觉语言(例如图标和布局),这提供了构建可以理解、推理并与这些界面交互的单一模型的机会。然而,由于其复杂性和不同的呈现格式,信息图表和 UI 提出了独特的建模挑战。 为此,我们引入了“ ScreenAI:用于 UI 和信息图形理解的视觉语言模型”。 ScreenAI通过pix2struct的灵活修补策略改进了PaLI 架构。我们在独特的数据集和任务组合上训练 ScreenAI,其中包括一项新颖的屏幕注释任务,该任务要求模型识别屏幕上的 UI 元素信息(即类型、位置和描述)。这些文本注释为大型语言模型 (LLM) 提供了屏幕描述,使它们能够自动大规模生成问答 (QA)、UI 导航和摘要训练数据集。

仅用 5B 参数,ScreenAI 就可以在基于 UI 和信息图表的任务(WebSRC和MoTIF)上实现最先进的结果,并且与类似大小的模型相比,实现一流的性能。我们还发布了三个新数据集:用于评估模型布局理解能力以及用于更全面评估其 QA。 屏幕人工智能 ScreenAI的架构基于PaLI,由多模态编码器块和自回归解码器组成。 PaLI 编码器使用创建图像嵌入的视觉变换器(ViT) 和将图像和文本嵌入的串联作为输入的多模态编码器。这种灵活的架构够解决可以重新转换为文本+图像到文本问题的视觉任务。 在 PaLI 架构之上,我们采用了 pix2struct 中引入的灵活修补策略。不使用固定网格图案,而是选择网格尺寸以保留输入图像的原始纵横比。这使得能够在各种长宽比的图像上正常工作。型分两个阶段进行训练:预训练阶段和微调阶段。首先,应用自监督学习自动生成数据标签,然后用于训练 ViT 和语言模型。 ViT 在微调阶段被冻结,其中使用的大多数数据都是由人类评估者手动标记的。




ScreenAI模型架构。 数据生成 为了创的预训练数据集,我们首先编译来自各种设备(包括台式机、移动设备和平板电脑)的大量屏幕截图。这是通过使用可公开访问的网页并遵循用于移动应用程序的RICO 数据集的编程探索方法来实现的。然后,我们应用基于DETR模型的布局注释器,识别并标记各种 UI 元素(例如图像、象形图、按钮、文本)及其空间关系。使用能够区分 77 种不同图标类型的图标分类器对象形图进行进一步分析。这种详细的分类对于解释通过图标传达的微妙信息至关重要。对于分类器未覆盖的图标以及信息图表和图像,我们使用 PaLI 图像字幕模型来生成提供上下文信息的描述性字幕。我们还应用光学字符识别(OCR) 引擎来提取和注释屏幕上的文本内容。我们将 OCR 文本与之前的注释相结合,创建每个屏幕的详细描述。 屏幕AI-2 带有生成注释的移动应用程序屏幕截图,其中包括 UI 元素及其描述,例如,TEXT 元素还包含来自 OCR 的文本内容 元素包含图像标题包含其所有子元素。 基于LLM的数据生成 我们使用PaLM 2增强预训练数据的多样性,通过两步过程生成输入输出对。首先,使用上述技术生成屏幕注释,然后我们围绕此模式制作提示,以便法学硕士创建合成数据。这个过程需要及时的工程和迭代细化才能找到有效的提示。

回復

使用道具 舉報

您需要登錄後才可以回帖 登錄 | 立即註冊

本版積分規則

Archiver|手機版|自動贊助|z

GMT+8, 2025-2-23 16:49 , Processed in 0.721762 second(s), 19 queries .

抗攻擊 by GameHost X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回復 返回頂部 返回列表
一粒米 | 中興米 | 論壇美工 | 設計 抗ddos | 天堂私服 | ddos | ddos | 防ddos | 防禦ddos | 防ddos主機 | 天堂美工 | 設計 防ddos主機 | 抗ddos主機 | 抗ddos | 抗ddos主機 | 抗攻擊論壇 | 天堂自動贊助 | 免費論壇 | 天堂私服 | 天堂123 | 台南清潔 | 天堂 | 天堂私服 | 免費論壇申請 | 抗ddos | 虛擬主機 | 實體主機 | vps | 網域註冊 | 抗攻擊遊戲主機 | ddos |