我不确定如何解决以下问题,我正在寻找一些指导:
我有一个文件,其中每行包含一个随机广告标题。我需要做的是将每个标题分类为smartphone或not-smartphone,具体取决于广告是否销售手机。
很抱歉文件不是英文的,但这里有一张截图显示了它的一点点: 完整文件在这里
我遇到的问题:
一些广告标题与智能手机有关,但它们实际上并不是在销售手机,而是与其相关的东西(配件)。示例:销售 Iphone X 手机壳的广告
有些广告标题甚至没有手机品牌,只有型号。示例:“白色小米 Mi Mix 2s Global 64GB”或“J7 Pro 64gb 4g J730”。
如果有一种方法可以从标题中提取准确的手机型号,那就太完美了,但是由于每个广告标题的格式不同,我找不到方法来做到这一点。
通常品牌会生产多种产品,而智能手机只是其中一种产品。因此,当我按品牌名称过滤时,它通常会返回与智能手机(平板电脑、电视、充电器等)完全无关的广告。需要更多过滤
即使允许我使用它,我也找不到包含所有智能手机型号列表的数据库,或者我不知道如何从中检索信息。
到目前为止我的想法是:
如果我可以访问包含大量智能手机型号的数据库,我可以直接在文件中搜索每个型号名称(例如“Iphone 5s”或“Moto G6”)。
我尝试使用 FonoAPI https://fonoapi.freshpixl.com(这是一个智能手机数据库,用于使用 java、php 等查询有关手机的数据)来搜索特定品牌的智能手机型号,但 api 只会返回一个最大值每次 100 个结果。所以为了使用它,我需要从标题中提取产品型号名称,这样我就可以检查它是否列在 FonoAPI 数据库中
因此,由于文件中的每个广告标题的格式都不同,我正在寻找有关如何执行此操作的一些想法,因为我找不到从标题中提取产品模型以与 FonoAPI 数据库进行比较的方法,两者都无法访问一些包含大量模型的大数据库直接在文件中查找它们。
holdtom
相关分类