913770.jpg

霍格与www

GF  2024-04-16 22:22
(霍格与www)

仓鼠症管理本子自动化, 使用图片(封面)对比实现本地离线添加标签, 使用 lanraragi 管理的想法

这个想法的原因是有些作品的文件名命名不规范, 不好提取出正确的作品的作者, 标题,
这样就不能只从文件名这个信息得出是哪个作品, 也就得不到标签
lanraragi 能匹配标签, 但基于前面的理由, 不够准确, 而且会封ip

这个方法的最大好处是准确,本地离线, 能最大化的补全标签,
在ex中, 作品有各种版本, 原版, dl版, 英文版, 汉化版等等, 明明是一个作品, 但每个版本的标签不同, 有多有少,
使用图片对比得出是同一个作品, 把所有版本的标签整合起来, 得到最多最完整的标签信息


前提
一个很大的数据库(比如ex数据库), 至少包括:
id,
标题,
对应的标签,
以及作品对应的本地封面图片, (即第一张图片)

原理是
使用你收藏的作品的封面图片, 逐一去对比数据库里每个作品的封面图片,
得出是同一个作品的所有id, 得到每个id的标签, 整合所有标签
使用浏览器爬虫调用操作浏览器(比如python seleinum)  向 lanraragi 写入标签信息

匹配速度
这几天的测试得出
一个作品的封面图片去对比1万张数据库里的封面, 即对比1万次, 大概要10分钟, (性能不同会有波动)
可以使用分析文件名得出大致的作者, 标题信息缩小要对比的id范围, 会使匹配速度提高几个数量级
假设不缩小范围, 对比完数据库全部的封面, 一个作品要可能花费30小时, 要对比大约200万次
我自己收藏的 2000 多个花了2,3 天时间匹配完成, 不过现在代码还没完善好, 一开始也没加上多线程

我找到的最大的ex数据库地址, 别人分享的, 最早的作品到2023.12.31的作品, 共200万
- [发布 · ccloli/e-hentai-db --- Releases · ccloli/e-hentai-db](https://github.com/ccloli/e-hentai-db/releases)
里面没有本地的封面数据, 但有封面图片的网址,  
通过这个数据库, 我爬取了所有的作品的封面图片保存到了本地, 大约200万个作品封面, 大小 35gb

标签翻译成中文的数据库
- [EhTag Editor](https://ehtt.vercel.app/list/all)

代码写了7, 8成, 核心的部分已经完成, 剩下不断调整对比图片的参数, 使更准确, 和向 lanraragi 写入的部分

1826082.gif

MAZE

高级 l,anraragi的e站刮削插件基本都是失败

none.gif

balus

大佬加油   

287317.jpg

ae6f0e0e

大佬加油!lanraragi的插件也就eh比较准,然而基本爬不动  

none.gif

chiya

lanraragi的削刮对eh本站下载的本子支持很好,然而我盘里几万本就没几个是e站下的