手记

双子座API(Gemini API):通过直接输入PDF来革新内容创作

摘要:

Gemini API现在支持直接处理PDF文档以生成内容,消除图像转换并降低成本。本报告提供一个示例脚本,以展示此新功能及其潜在应用。

开始

Gemini API最近引入了直接处理PDF数据以生成内容的能力,大大增强了其功能,。此前,为了使用PDF数据生成内容,需要将每个PDF页面转换成单独的图像。这个耗时且资源密集的过程已被简化,从而大幅降低了处理成本。

通过直接读取PDF内容,Gemini API为各种应用程序带来了新的可能性。本报告将提供一个示例脚本,以展示如何有效利用Gemini API直接从PDF数据生成内容。

一个样本脚本

在此脚本中使用了GeminiWithFiles(谷歌应用脚本)。因此,在运行下面的脚本之前,请先安装它。参考更多使用说明请参见。

请将下面的脚本复制并粘贴到 Google 应用脚本的脚本编辑器中。然后,请设置您的 API 密钥。

    function sample() {  
      const apiKey = "###"; // 请设置您的API密钥。  

      const urls = [  
        "https://journals.aps.org/pr/pdf/10.1103/PhysRev.48.73", // 来自 https://journals.aps.org/pr/abstract/10.1103/PhysRev.48.73  
        "https://arxiv.org/pdf/1706.03762.pdf", // 来自 https://research.google/pubs/attention-is-all-you-need/  
      ];  

      const blobs = UrlFetchApp.fetchAll(urls).map((r) => r.getBlob());  

      const jsonSchema = {  
        description:  
          "请总结以下论文,每篇总结不超过50字。同时,获取每篇论文的标题和作者。",  
        type: "array",  
        items: {  
          type: "object",  
          properties: {  
            title: { description: "论文标题", type: "string" },  
            authors: { description: "论文作者", type: "string" },  
            summary: {  
              description: "论文总结,50字以内。",  
              type: "string",  
            },  
          },  
          required: ["title", "summary"],  
          additionalProperties: false,  
        },  
      };  
      const g = new GeminiWithFiles.geminiWithFiles({  
        apiKey,  
        response_mime_type: "application/json",  
        model: "models/gemini-1.5-pro-latest",  
        doCountToken: true,  
      });  
      const fileList = g.setBlobs(blobs).uploadFiles();  

      console.log(fileList); // 在这里,你可以看到上传数据的元数据。  

      const res = g  
        .使用已上传文件生成内容(fileList)  
        .generateContent({ jsonSchema });  
      g.deleteFiles(fileList.map(({ name }) => name));  

      console.log(res);  
    }

脚本中的这些URL如下。

  • https://journals.aps.org/pr/pdf/10.1103/PhysRev.48.7:这个PDF来自这篇论文

  • https://arxiv.org/pdf/1706.03762.pdf:这个PDF来自这篇论文

在这个脚本里,PDF数据被下载下来并用于Gemini API。脚本流程可以在本报告顶部的图片中看到。

zh: 2024年8月3日这天,GeminiWithFiles 更新至 v2.0.0。这次更新还包括我更新了上述脚本。

结果如下

运行此脚本时,会得到以下结果。多个PDF文件可以一次性通过一个API调用来解析。

    [  
      {  
        "title": "广义相对论中的粒子难题",  
        "authors": "A. 爱因斯坦 和 N. 罗森",  
        "summary": "本文探讨了一种基于广义相对论和电磁学的物质和电原子论理论。它修改了引力方程,以便在静态球对称情况下有规则的解,并将粒子表示为“桥”,连接两个相同的空间片层。该理论解释了没有负质量粒子的存在,并提供了一个对场和运动的统一处理。"  
      },  
      {  
        "title": "注意力就够了",  
        "authors": "Ashish Vaswani, Noam Shazeer, Niki Parmar, Llion Jones, Aidan N. Gomez, Illia Polosukhin, Łukasz Kaiser, Jakob Uszkoreit,",  
        "summary": "本文介绍了一种基于注意力机制的新颖网络架构——Transformer,用于序列转换。它用多头自注意力机制替代了传统的循环和卷积层,从而实现了更好的并行化和性能。在机器翻译实验中,显著提高了BLEU分数和训练时间,达到了最先进的水平。"  
      }  
    ]

从v2开始,GeminiWithFiles可以直接使用PDF blob,就像上述脚本那样。但是,当使用v1时,PDF blob会被转换成每页的图片。当使用v1时,脚本通过const fileList = await g.setBlobs(blobs, false).uploadFiles();这一行中的false参数来决定如何处理PDF数据。这里,false表示脚本会直接将PDF数据提供给API进行处理。相反,如果将参数设置为true(例如const fileList = await g.setBlobs(blobs, true).uploadFiles();),脚本会将每一页PDF转换成单独的图片后再发送给API。

这项实验比较了直接使用PDF文件和将PDF转换为图像的处理时间的对比。具体如下:

此处直接使用了Markdown格式中的破折号列表,未做更改。
  • 直接处理PDF:15秒,基于图像的处理方式:120秒

分别在(测试过的)来自https://journals.aps.org/pr/pdf/10.1103/PhysRev.48.7的5页数PDF和来自https://arxiv.org/pdf/1706.03762.pdf的15页数PDF上进行了测试。

如结果所示,直接将PDF数据输入Gemini API的处理成本明显低于基于图像转换的方法。这很可能是由于每一页图像转换过程中产生的额外开销。

此示例脚本是为Google Apps Script编写的。不过,这种方法也可以应用于其他语言,除了Google Apps Script之外。

参考
  • GeminiWithFiles(点击链接查看 GeminiWithFiles 的 GitHub 页面)
    (A file processing tool based on Gemini)
0人推荐
随时随地看视频
慕课网APP