Movatterモバイル変換


[0]ホーム

URL:


Bangumi 番组计划
登录注册

~技术宅真可怕~ »讨论
基于机器学习的工口漫画推荐系统,现在有实装的网站了吗?


#1 - 2020-9-1 06:43
已注销
以减少一些误解:
- 这个帖子中的 xp(性癖)一词都是「对于色情作品的审美偏好」这一意义,与线下的实战无关
- lz 本人会有这样的需求的出发点在于,网络上大家已知的这一套用来描述给性癖分类的 tag系统,这些 tag 的所有与或关系组合都与我个人的 xp 相差甚远,对个人筛选作品的帮助很小。如果对你的 xp 来说 tag 系统就已经足够好用,也请理解工口漫画网站还有很多像 lz 一样的用户


漫画的总量太大了,靠简陋的 tag 系统完全达不到筛选的目的
但是用户最多的 n/e 两变态都还在使用按上传时间排序的页面

推荐系统需要收集用户数据来训练,所以可以理解两个网站的运营者的保守方针肯定有出于隐私方面的考虑
但是技术方面,不懂机器学习的我想问两个问题:
- 一个推荐系统要调教到好用的程度(淘宝知乎抖音那种感觉)需要多少努力,必须要一大组优秀的工程师 996 好几个月吗?
- (用自然语言)给 xp 分类/标签化是一件很困难的工作,xp 高度个人化(比起淘宝商品、抖音视频的偏好)而且难以用语言表述。这种“自然语言的局限”,对机器学习来说是基本不用考虑的,对吗?
#2 - 2020-9-1 08:26
th3ta "Paradox"(Rigidity and Uncertainty~☆)
我也不懂机器学习。我猜测这个功能其实不难实现,不需要任何 feature engineering,直接做个基于聚类分析的推荐系统就够用。
但我觉得用户并不会喜欢这功能,毕竟谁都不想让大数据绑架自己的贾斯丁比伯。
#2-1 - 2020-9-1 23:17
東瀬まつり🦋❄️🐻💎🐺🍎🐠
刚刚发现其实一楼就终结了此贴,不过现在聚类也可以用深度神经网络了(bgm38)
#3 - 2020-9-1 09:52
c933103(請注意UID)
Pixiv點喜歡圖片時所產生的推薦算不算?
#4 - 2020-9-1 10:26
Retorm
基于画面或者语言标签化太难了,不如基于用户或者翻译组的标签
#4-1 - 2020-9-1 10:32
c933103
畫面和語言應該算比較容易,另一方面關於情節和關係的…
#4-2 - 2020-9-1 15:55
已注销
c933103 说: 畫面和語言應該算比較容易,另一方面關於情節和關係的…
是这个意思,一本 18 页的同人比起 pixiv 的一张插画有更复杂的上下文和人物关系,像 pixiv 那样用 tag 系统来做推荐的话损失的信息量过多了
#4-3 - 2020-9-1 17:09
c933103
Oshino 说: 是这个意思,一本 18 页的同人比起 pixiv 的一张插画有更复杂的上下文和人物关系,像 pixiv 那样用 tag 系统来做推荐的话损失的信息量过多了
Pixiv的推薦感覺不止用tag
#5 - 2020-9-1 10:45
光速火箭
抖音/b站/淘寶的推薦系統很大程度上是用標題和tag作為訓練數據的。這些網站有大量的用戶數據可以被用在模型中。
本子站的最大問題是用戶及用戶數據太少,不足以做推薦系統的訓練。
#6 - 2020-9-1 10:49
夏日勘探者(家に帰るまでが遠足です)
现在的机器学习是跑不出tag的,所以你要是不满意tag的话就没救了。
根据tag推荐很容易,但是要让机器学会自己打tag就完全是另一个量级的问题了。
难道要雇几百个鉴黄师专业打tag?
然后每次更新tag_list都返工一遍数据库?
#6-1 - 2020-9-1 21:18
橘枳橼
现在的神经网络虽然也可以理解为 tag,但并不是语义化的。
Amazon 那套基于 “xp 相似的用户拥有相似的 xp” 的 P->Q->P->P 的恒真式(大误)倒是挺好的,但就上面所说,容易产生鸡儿被系统绑架的感觉。
#6-2 - 2020-9-2 07:44
夏日勘探者
InQβ 说: 现在的神经网络虽然也可以理解为 tag,但并不是语义化的。
Amazon 那套基于 “xp 相似的用户拥有相似的 xp” 的 P->Q->P->P 的恒真式(大误)倒是挺好的,但就上面所说,容易产生鸡...
基础训练材料需要人来供给,而这一阶段就已经很难分类了。
主要问题还是机器学习材料是图像文件的话几乎不可避免的会倾向于判断图像间的相似度。这么搞的话即便能够判断姿势、服饰、人物(这点其实挺值得怀疑,有些时候人类都分不出来)之类物质性的内容,要判断剧情上的NTR之类的就很困难了。这里对于文本的研判是必要的,然而虽然文本识别对于方块字的正确度用已经上升到了一个可以接受的了量级,对于文本表意的判断能力却没有那么充分,更别提不少作者还喜欢用点拐弯抹角的写法,甚至搞些“把百合本里的角色换个名字扔进双飞本”的神操作。
最主要的还是钱的问题。并不觉得这里有足以支付充足经费的市场。
#6-3 - 2020-9-2 08:00
已注销
夏日勘探者 说: 基础训练材料需要人来供给,而这一阶段就已经很难分类了。
主要问题还是机器学习材料是图像文件的话几乎不可避免的会倾向于判断图像间的相似度。这么搞的话即便能够判断姿势、服饰、人物(这点其实挺值得怀疑,有些...
(我觉得你对于计算机理解漫画文本的困难的分析很有道理,但是 Qb 同学提到的算法应该是不需要输入漫画本身的内容的,根据 #12 和 #15 两位介绍的思路)
#6-4 - 2020-9-2 12:47
夏日勘探者
Oshino 说: (我觉得你对于计算机理解漫画文本的困难的分析很有道理,但是 Qb 同学提到的算法应该是不需要输入漫画本身的内容的,根据 #12 和 #15 两位介绍的思路)
那个相当于把用户编入“机器”了,所以智能性和有效性在用户量充足的情况下是没问题的。不过在本子界这种高度特化的地方不一定比人工打tag更强。
主要是觉得跟楼主问题关系不太大所以略过了,可行性是没问题的。
另外这种系统如果不让用户人工标注是否喜欢全看阅览时间的话没法应付最后丢雷的类型,只会滚雪球一样招来越来越多的受害者。
#6-5 - 2020-9-2 14:28
已注销
夏日勘探者 说: 那个相当于把用户编入“机器”了,所以智能性和有效性在用户量充足的情况下是没问题的。不过在本子界这种高度特化的地方不一定比人工打tag更强。
主要是觉得跟楼主问题关系不太大所以略过了,可行性是没问题的。...
嗯嗯确实,相比 #12 #15 两位的方案的应用场景来说,本子站用户更少,作品更多,用户对作品的标注量更小,作品的分类更细更繁,很难凑出足够好的数据

那关于 #6-2 提到的对漫画内容的判断,这里还是借用一下我在 #8-1 用的例子
关注「SM」这个 tag 的读者的兴奋点会有这样的分化:
p1: 作为“比纯爱更纯爱”的 SM,通过 SM 的 play 才能体现的 M 对 S 的“我可以把自己的身体交给你”的强烈的信赖关系。比如这本
p2: 单纯对 M 角色处于羞耻/痛苦状态这件事本身获得兴奋
p3: 作为 “权力关系的倒置”的 SM,在社会意义上居于权力关系的上位的角色在 SM 中进入 M 的身份,享受一种在 play 中类似于龙傲天文的“反差感” 比如桂あいり的《交换》系列里的纱织线
p4: 类似“对君主的忠诚感”的关系的 SM,黑兽2中的 ruka 线,《交换》系列里的葵线
p_n:...............
要做分类的话,对于这种可能画面内容(play)上高度相似,必须深度理解漫画文本和作者的分镜语言的才能区分的 xp,听夏日同学描述是有足够的研发投入的话也是可以处理的问题,能指路一下目前有可能性的大概的方向吗?

在这之上一个更困难的点在于,我能够像上面那样 p1 p2 p3 p4 式的人工写出分类,是因为有足够多的创作者在作品中对相关话题有过足够深刻的探讨并在此之上形成了明显的风格差异。还有很多画面内容相似但需要区分开的 xp 找不到合适的语言表达,有很多对读者本人来说有偏好差异但没有被显式地认知的风格区分,这些“自然语言的局限性”对计算机做内容分类来说也会是一个难点吗?
#6-6 - 2020-9-2 15:08
橘枳橼
夏日勘探者 说: 那个相当于把用户编入 “机器” 了,所以智能性和有效性在用户量充足的情况下是没问题的。不过在本子界这种高度特化的地方不一定比人工打 tag 更强。
主要是觉得跟楼主问题关系不太大所以略过了,可行性是没...
想起只看点击量就会诞生标题党
警惕古德哈特定律
#7 - 2020-9-1 11:07
smileandyxu(受不了共趣人啦……不行还是得受住)
不太清楚第二个问题的意思。如果说是生成自然语言tag(而非判断和库里的tag是否相关的概率),那其实就是summarization问题,但生成出的肯定不会像现在tag库这样好找。最后实际搜索可能只能要么输入短句然后计算句子距离,或者直接求漫画编码之间的距离。但无论哪种感觉都还不如直接筛tag,不知道有没有别的思路。
#7-1 - 2020-9-1 11:12
Retorm
另外一种就是直接根据用户浏览数据,不考虑tag,考虑相似喜好的人的高分作品来推荐
#7-2 - 2020-9-1 11:25
smileandyxu
Retorm 说: 另外一种就是直接根据用户浏览数据,不考虑tag,考虑相似喜好的人的高分作品来推荐
单纯做推荐系统这样当然是比较合理的,但如果要能够自由搜索不让jb被系统绑架的话就比较微妙了,比如想换换口味可能就不太好实现。
#8 - 2020-9-1 11:32
Retorm
针对楼主最后一段:很多情况下,机器并不需要了解tag本身的自然语言含义,而只是进行概率上的计算,所以不存在“自然语言上的局限”,只要知道某些漫画是一类就行。但问题是你如何知道这些漫画是一类呢?还是需要人类的监督。但高质量的监督数据就需要一群有统一标准的人来专门标注,这个统一标准需要自然语言描述。
另外的话,比如深度学习做的分类器,可以看做隐式包含了一些标签实际的语义信息。但是还是逃离不出监督时候需要自然语言的问题。
要有好的效果,首先从特征工程开始(也可以看做怎样描述和构造你这个任务的输入和输出)。我是觉得不应该直接描述xp,而是直接描述一个人对一大堆tag分别的喜欢程度,比如70%NTR+30%开大车,通过一个统一标准的tag库,就可以直接描述出所有人各自的xp。然后根据用户的浏览数据,如何对相似xp的人进行推荐,应该就简单很多了。
#8-1 - 2020-9-1 23:04
已注销
不了解机器学习的术语系统所以如果我外行式的描述造成了沟通困难请谅解一些
我是觉得不应该直接描述xp,而是直接描述一个人对一大堆tag分别的喜欢程度,比如70%NTR+30%开大车,通过一个统一标准的tag库,就可以直接描述出所有人各自的xp。
这项工作听起来是把所有的 xp 看作一个定义了了内积的向量空间 X,然后用 tag 系统所含的 xp 作为基底来刻画描述每个人的 xp

我觉得这个基底不够好,以至于难以跑出好的模型的点在于:
- 首先这个基底能给出的子空间 T 比起 X 要小不少
- 如果要近似处理,这个子空间 T 也没有这样一种,被期待应该有的“在 X 中的近似的稠密性”:

一个实例是,关注「SM」这个 tag 的读者的兴奋点会有这样的分化:
p1: 作为“比纯爱更纯爱”的 SM,通过 SM 的 play 才能体现的 M 对 S 的“我可以把自己的身体交给你”的强烈的信赖关系。比如这本
p2: 单纯对 M 角色处于羞耻/痛苦状态这件事本身获得兴奋
p3: 作为 “权力关系的倒置”的 SM,在社会意义上居于权力关系的上位的角色在 SM 中进入 M 的身份,享受一种在 play 中类似于龙傲天文的“反差感”比如桂あいり的《交换》系列里的纱织线
p4: 类似“对君主的忠诚感”的关系的 SM,黑兽2中的 ruka 线《交换》系列里的葵线
p_n:...............
比如以我为例来说,对 p1、p2 完全不感兴趣,对 p3 比较感兴趣,浏览的重点在于 p4
而这些不同的 xp 之间的区别,在作品中发生的 play 几乎是相似的。p3 可能可以通过配合 #teacher #chef 这样的社会身份类标签来接近,但是 p1 p2 p4 类作品的在 tag 组合上几乎没有差别,要区分它们必须要更深入作品的文本才行
#8-2 - 2020-9-2 11:45
Retorm
Oshino 说: 不了解机器学习的术语系统所以如果我外行式的描述造成了沟通困难请谅解一些这项工作听起来是把所有的 xp 看作一个定义了了内积的向量空间 X,然后用 tag 系统所含的 xp 作为基底来刻画描述每个人的 ...
不不不你的描述很好,是我想的太简单了(bgm38)
我之前这样说,有效的前提其实有个假设就是每个tag之间独立且能够覆盖整个空间应有的基底,但显然现实不是这样的,我还是想的太简单(bgm38)
#9 - 2020-9-1 14:58
kazami kazuki
没有(bgm38)

但有
cheese-roll/light-anime-face-detector
anime脸的检测等
还有
anthony-dipofi/danbooru-tagger
KichangKim/DeepDanbooru
图像多标签分类模型

深度学习
就实际应用来看(图像处理)
(我把我想到的都写出来(bgm38),无学术严谨性,不过脑子的)
不过就看ex啊,这些XP这些标签相当难描述这些特征,噪音太大根本训不出好效果(我没试过ex但danbooru确实是噪音大,清理图像,清洗标签就很麻烦)弄不好还得引入无监督,图像自标记啊这些

非真实图像做标签分类任务的噪音相当大,而且样本少,特征多,难学样本多
训出来,你给ex的图像可以看,但nh就挂了?
泛化弱,然后靠数据增个强,模型又太小,训不出好看的结果

动漫图像是小领域,没人研究,更别谈加入自然语言啊这些
图像就只能靠主动学习,小样本学习
还可能需要提出 漫画摘要(类比视频自然语言摘要)这种新任务

然后....各种技术都集成起来,都能自己开UGC站了(bgm38)
#9-1 - 2020-9-1 22:42
東瀬まつり🦋❄️🐻💎🐺🍎🐠
从图像来做推荐绕远路到Image Caption了(不过二次元的Image Caption也是挺好的水文方向(bgm38)),楼主要的是推荐系统,基于图的社区划分和基于矩阵的推荐算法传统的还是机器学习的都有很多(bgm38)
#9-2 - 2020-9-1 22:48
kazami kazuki
東瀬まつり🦋❄️🐻💎🐺🍎🐠 说: 从图像来做推荐绕远路到Image Caption了(不过二次元的Image Caption也是挺好的水文方向),楼主要的是推荐系统,基于图的社区划分和基于矩阵的推荐算法传统的还是机器学习的都有很多
我觉得吧,主要信息还是图像,数据特征的信息
没有社区的情况也更好启动项目
但如果再 弄个社区联合(GNN那堆用户推荐),来增加其他(非图像)信息
模型应该更有看头吧
#9-3 - 2020-9-1 22:58
東瀬まつり🦋❄️🐻💎🐺🍎🐠
hgy0353 说: 我觉得吧,主要信息还是图像,数据特征的信息
没有社区的情况也更好启动项目
但如果再 弄个社区联合(GNN那堆用户推荐),来增加其他(非图像)信息
模型应该更有看头吧
话说makegirlsmoe都实现了生成的时候控制头发颜色之类的tag,某种程度上已经做出来了图像->tag的鉴别器了

哦,发现你之前提了Deep Danbooru,当我没说

我觉得做推荐去识别内容本身就是绕远路(bgm38)
#9-4 - 2020-9-1 23:05
kazami kazuki
東瀬まつり🦋❄️🐻💎🐺🍎🐠 说: 话说makegirlsmoe都实现了生成的时候控制头发颜色之类的tag,某种程度上已经做出来了图像->tag的鉴别器了
makegirlsmoe那太老了,GANs的研究已经相当前瞻了
大把的
Yujun Shen
Jun-Yan Zhu(朱俊彦)

别谈鉴别器,生成器本身就能做
图像自标注啊,自监督 是有大堆用GAN做分类的
GANs学到的隐嵌入空间线性可分
stylegan上很多(语义)特征都能被解耦表示了

GANs是全能的,因为做到了生成图像
任务上可以在某种程度等价重训一个的CNN,(分类,分割)都能做
#9-5 - 2020-9-1 23:16
kazami kazuki
東瀬まつり🦋❄️🐻💎🐺🍎🐠 说: 话说makegirlsmoe都实现了生成的时候控制头发颜色之类的tag,某种程度上已经做出来了图像->tag的鉴别器了

哦,发现你之前提了Deep Danbooru,当我没说

我觉得做推荐去识别内...
社区太"脏",项目启动阻力大
@Dimpurr有做一个bgm爬虫与分析 - BigDataGumi

我之前在写一个类似bgm,番剧数据库的项目
深感标签数据实在太"脏"了,尤其是大站,我找到了excalibur小站(已删库),完成了这个项目

没有权威的联合推荐就是个笑话,不是人做的(bgm38)
这样的干净站(mangaupdates,anidb),只靠管理员贡献标签,是非常有价值的

但有了CNN,调教成权威
用户推荐,用户数据为辅,认知模型(图像,NLP等等)为主
#9-6 - 2020-9-1 23:20
東瀬まつり🦋❄️🐻💎🐺🍎🐠
hgy0353 说: 社区太"脏",项目启动阻力大
@Dimpurr有做一个bgm爬虫与分析 - BigDataGumi

我之前在写一个类似bgm,番剧数据库的项目
深感标签数据实在太"脏"了,尤其是大站,我找到了exc...
不用标签,用用户对番组的标记构建二分图,边的值直接用打分-5-delta,做基于图的聚类(社区划分)

原来你都有做完的了,膜

在有千奇百怪内容的网站上建立认知内容的模型显然是一个很艰巨的工作,相反如果使用基于用户数据的算法,就可以省去这个要素,在不同类型的内容间也能通用,pinterest用的pinsage推荐就和内容认识没有关系,效果很好(我觉得youtube也是类似的算法
#10 - 2020-9-1 21:26
想成为太空垃圾(中华)
没有tag跑ml的变量都没有吧,漫画这个东西挺难让机器自己打的,知乎淘宝这些还可以靠nlp。漫画的标签维度太多了,剧情画风甚至姿势都可以做xp,机器弄不来的
#11 - 2020-9-1 22:08
cbx0916
深度学习如果要搞的话需要相当量的数据集吧,但是前提是数据集需要准确才行,就算在ex上搞到1000本不同的本子,ex上的tag也算是比较完善,但还是难免会有些偏差,人为标注也是比较困难。
每个人的xp千差万别,有人可能萌猫耳,有人可能萌loli,有人可能萌NTR,有人萌后背位,因为主要搞图像识别感觉NTR这种单靠图像识别..emm比较微妙。
感觉其实有空可以试一下能训练出个什么东西来....
#12 - 2020-9-1 22:14
東瀬まつり🦋❄️🐻💎🐺🍎🐠([s]安静点格子[/s] ☄️⚓ ☁️⭐️)
机器学习打tag不懂真要打TAG的话,感觉变成语义学习了...离开推荐算法接近NLP领域了

不过这个可以基于图来做社区划分,在图上做学习,只需要大量的用户和他们喜欢的视频、漫画、图片,就可以对用户进行划分,划分到同一组的用户拥有相同的兴趣;同样可以将他们看的视频、漫画、图片进行划分;然后将划分到同一组的用户推荐同组用户经常看的其他视频、漫画、图片

(bgm117)解释不太清楚,看这个视频吧,Pinterest工程师讲GraphSAGE

可以搜索GraphSAGE、 PinSAGE、Recommendation based on social network

这个模型通用度我觉得很高,班固米、eh都可以用,但是要爬好多数据(其实很想试试
#12-1 - 2020-9-1 23:04
東瀬まつり🦋❄️🐻💎🐺🍎🐠
关于需要多少努力,主要是需要数据本身,有数据之后傻子也可以套开源算法,大公司会去养自己的研究员和实验室,小公司要不外包要不自己吭哧吭哧搞
#12-2 - 2020-9-2 07:08
已注销
谢谢 matsuri 同学回了这么多楼,好多有帮助的信息

看了视频的前 20 分钟,对这个算法的大概有概念了
把 pins 替换成本子, boards 替换成用户,当用户把本子加进了 favorites (或者在页面停留了足够久)就在两个节点建立边

但是以 nh 和 exh 现有的用户数据的质量(大部分用户的标注量太少,xp 的差异在源数据中体现的很不明显)来说,在 PinSage 提到的随机游走来取 neighbor 的方式下,邻近节点中 xp 相似的用户会和 xp 不相似的用户因为标注量小混在一起

(因为是非公开的,只能从体感上来说) nh 和 exh 两家网站的用户数据的质量和规模可能支撑不起所有以"similar users have similar tastes"为思路的推荐系统
#13 - 2020-9-1 23:09
Spitfirescott(define)
直接跑个关联规则?

只不过真的挺难推啊(bgm38)倒不是跑不了,但怎么界定工口漫画合意(bgm38)。用最后浏览的一本漫画吗?
#13-1 - 2020-9-1 23:27
東瀬まつり🦋❄️🐻💎🐺🍎🐠
在漫画上停留的时间,pornhub就用这方法(bgm38)
#13-2 - 2020-9-1 23:47
已注销
favorite list?难道会有人看到足够合意的漫画不点个收藏以备下次使用吗
#13-3 - 2020-9-2 01:10
th3ta "Paradox"
東瀬まつり🦋❄️🐻💎🐺🍎🐠 说: 在漫画上停留的时间,pornhub就用这方法
据说 Google 也是这样,按照搜索后在页面停留的时间去评价搜索结果,算是比较省事的 implicit 的supervised learning(bgm38)
#13-4 - 2020-9-2 19:53
Spitfirescott
東瀬まつり🦋❄️🐻💎🐺🍎🐠 说: 在漫画上停留的时间,pornhub就用这方法
有道理
#13-5 - 2020-9-2 19:58
Spitfirescott
Oshino 说: favorite list?难道会有人看到足够合意的漫画不点个收藏以备下次使用吗
有道理
#14 - 2020-9-1 23:35
Nightwing(SHAFT系動畫小組 →https://bgm.tv/group/shaft)
任务太难, 机器学习目前不行在于这种自下而上的拟合+优化 (搜索) 方式学不到数据表象 (形式) 背后的生成模型 (语义), 只能学一些简单模式 (复杂问题不太能学习, 数据太差, 标注损失信息)
不懂本子, 有没有动画的例子(
另外, staff 信息要比用户评分数据强多了, 不知道有没有人这么干, 毕竟 staff 最接近生成模型呀 (就用户数据, 一个更好的标注例子
#15 - 2020-9-1 23:54
Slime
思路1:基于协同过滤(不需要显式的标签)
一个最简单的方案是,寻找k个和你的浏览记录最相似(定义一个合适的距离指标,比如Pearson)的用户,推荐给你这k个用户共同阅读过,但你没有阅读过的漫画(也可用其他隐式的标签)。
类似的,也可以通过矩阵分解(把推荐变成一个带约束的优化问题)解决。

思路2:基于内容的(配以自动化生成标签)
标签的常见问题是缺漏和错误。一个最简单的方案是利用机器学习得到一个分类器: 对于发型、生理特征等简单的特征,可以把问题转变成一个图像分类问题求解。
对于剧情等相对比较复杂的标签,可以把加入时序关系,同样使用分类器求解(类比视频分类)。

对于思路1:如果数据量在千万级别一台较好的台式机就可以应对,参考当年的Netflix挑战(50万用户,2万电影,1千万标注)。
对于思路2:如果图片在千万级别,同样一台较好的台式机(需要显卡)就可以解决,参考当年的Imagenet挑战(1千4百万图片)。

系统的开发周期,比较专业的大概一个周末就可以搞定,但收集数据和调优的周期要长的多。提供漫画服务本身需要的机器可能还多一点,和用户数有关。
#15-1 - 2020-9-2 07:34
已注销
哇谢谢回复,技术细节列的好清晰
我记得下午刚看到的时候 777 同学在 #15-1 列了几条实现的技术难点,现在删掉了啊

思路1 基于 "similar users have similar tastes" ,和 まつり同学在 #12 提到的 PinSage 算法动机是相同的,但是 nh 和 exh 的数据里,用户少,作品多,标注少,所以xp 的差异无法在源数据里体现的不明显。不管距离是如何定义的,找出来的最近的 k 个用户可能都只是因为阅读量太小而被划在一起的

思路2关于如何算法处理我在 #8-1 提到的
一个实例是,关注「SM」这个 tag 的读者的兴奋点会有这样的分化:
p1: 作为“比纯爱更纯爱”的 SM,通过 SM 的 play 才能体现的 M 对 S 的“我可以把自己的身体交给你”的强烈的信赖关系。比如这本
p2: 单纯对 M 角色处于羞耻/痛苦状态这件事本身获得兴奋
p3: 作为 “权力关系的倒置”的 SM,在社会意义上居于权力关系的上位的角色在 SM 中进入 M 的身份,享受一种在 play 中类似于龙傲天文的“反差感” 比如桂あいり的《交换》系列里的纱织线
p4: 类似“对君主的忠诚感”的关系的 SM,黑兽2中的 ruka 线,《交换》系列里的葵线
p_n:...............
极度细密的文本差异,可以再详细的指下路吗?
#15-2 - 2020-9-2 15:24
Slime
Oshino 说: 哇谢谢回复,技术细节列的好清晰
我记得下午刚看到的时候 777 同学在 #15-1 列了几条实现的技术难点,现在删掉了啊

思路1 基于 "similar users have similar tas...
删掉15-1的回复是因为想要改一下15的错字,但删完之后发现忘记复制就懒得再打一遍了(bgm39)

思路1: 正文里举例用了基于用户之间的相似度为例,但这只是因为多数系统里用户数远大于电影数。如果情况相反也可以用物品之间的相似度(如某用户喜欢电影A,就基于和电影A最相近的K个电影推荐)。对于一个用户乘电影的矩阵,区别只是用列推断列和用行推断行而已。
但总的来说,在数据量小于模型的容量时,模型能做的是有限的:因为待定项太多时,总是存在在观察到数据点上相同,但在未观察到数据点上相反的可能性:
举个例子,你观察到A和B都喜欢吃橘子,但A可能是因为喜欢不需要洗的水果,而B可能是因为喜欢酸味,这两者完全可能在香蕉上表现出相反的偏好。从这点说,在没有更进一步的数据前,无论模型得出了:所有喜欢吃橘子的人都是因为懒得洗水果/所有喜欢吃橘子的人都是喜欢酸味/A喜欢吃橘子是因为不喜欢洗水果,B喜欢吃橘子是因为喜欢酸味/B喜欢吃橘子是因为不喜欢洗水果,A喜欢吃橘子是因为喜欢酸味
以上四种可能性的哪一种,都是和已有数据不矛盾的。选择了解释1的模型会在满足解释2的数据上表现得很差;选择了解释3的模型会在满足解释4的数据上表现得很差。上边的例子反应的就是著名的没有免费午餐原理。
想要更好的泛化能力,只能通过增加数据或是反映人类知识的约束项实现。

思路2:你这个问题是典型的结构性分类,即追求在大分类下区分小分类。一个例子是人脸识别中,既要能区分不同族裔(大分类),也要在大分类内区分不同人种内部的差异。这些一般是通过设计相应的目标函数实现的(比如加上最大化大类内小类之间间隔的约束)
#15-3 - 2020-9-2 17:21
已注销
Response777 说: 删掉15-1的回复是因为想要改一下15的错字,但删完之后发现忘记复制就懒得再打一遍了

思路1: 正文里举例用了基于用户之间的相似度为例,但这只是因为多数系统里用户数远大于电影数。如果情况相反也可以用...
每次刷新都看到你的回复新增一小段,等到你终于改好了我才来回复 ww

思路1 我们应该是处于不用讨论的共识中的:用户和作品本身在图中是对称的节点,从用户推用户,用户推作品,作品推作品,作品推用户都是同一个距离问题。
用户与作品的数量比例的不对称性影响的是图的边,用户多了会去标注作品,作品多了却不能去主动标注用户导致图里太多的边处于不可见

关于思路2
你这个问题是典型的结构性分类,即追求在大分类下区分小分类。一个例子是人脸识别中,既要能区分不同族裔(大分类),也要在大分类内区分不同人种内部的差异
去检索了 777 同学在 #15-0 提到的视频分类的关键词之后,我觉得我举的「SM 的 tag 下的不同类型」应该是一个比起目前工业界常见的应用场景要非典型的多,也困难的多的问题——它们的画面要素(play)是相似的,需要算法去理解文本和作者的分镜语言
这些一般是通过设计相应的目标函数实现的(比如加上最大化大类内小类之间间隔的约束)
我觉得整个思路2最不 trivial 的地方就是这个目标函数怎么设计来着(bgm38)
#15-4 - 2020-9-2 21:55
Slime
Oshino 说: 每次刷新都看到你的回复新增一小段,等到你终于改好了我才来回复 ww

思路1 我们应该是处于不用讨论的共识中的:用户和作品本身在图中是对称的节点,从用户推用户,用户推作品,作品推作品,作品推用户都是同...
比歪吧歪吧歪吧歪吧吧卜比吧比比吧比比吧歪吧卜比吧比比卜比歪歪吧吧比吧歪吧歪吧卜比歪吧歪吧比比比歪卜比歪歪歪吧歪歪歪比吧卜比比比吧歪比歪吧比比卜比歪吧比比比比歪吧歪卜比歪吧比吧吧吧吧吧歪卜比比比吧歪比歪吧比比卜比歪吧比比比比歪吧歪卜比歪歪吧吧比吧歪歪吧歪卜比比比吧歪比歪吧比比卜比歪吧比比比比歪吧歪卜比歪吧比吧吧吧吧吧歪卜比歪歪歪吧比吧比比歪卜比歪歪吧吧歪吧比吧比卜比歪歪吧吧比吧歪歪吧歪卜比歪歪歪吧比吧比比歪卜比歪歪吧吧歪吧比吧比卜比歪吧比吧吧吧吧吧歪卜比歪歪歪吧比吧比比歪卜比歪歪吧吧歪吧比吧比卜比歪歪吧吧比吧歪歪吧歪卜比歪歪歪吧比吧比比歪卜比歪歪吧吧歪吧比吧比卜比歪吧比吧吧吧吧吧歪卜比比比吧歪比歪吧比比卜比歪吧比比比比歪吧歪卜比吧比吧吧吧歪吧歪比卜比歪吧吧吧比吧吧比吧卜比歪歪吧比比比吧吧歪卜比歪歪歪比歪比比吧歪卜比歪歪歪比比歪歪比歪卜比吧比比吧比比歪歪吧卜比比吧歪吧歪吧歪比吧卜比吧吧比比吧吧比吧歪卜比吧吧吧比吧歪吧比比卜比歪吧歪吧比比比比卜比歪比卜比歪歪吧比比歪比吧吧卜比吧吧比吧比歪歪比吧卜比歪歪歪比吧歪吧比比卜比歪吧吧比比吧比吧吧卜比歪吧吧比吧比歪歪歪卜比歪歪吧比比比吧吧吧卜比比比吧比吧比吧歪比卜比歪吧歪吧吧吧比比吧卜比歪歪比吧歪歪吧歪比卜比歪歪吧吧比吧歪歪吧歪卜比歪比吧歪比比吧歪歪卜比吧吧比吧歪吧吧比歪卜比歪歪歪比比歪歪吧歪卜比歪歪比吧比比比歪吧卜比歪歪歪比歪吧歪歪比卜比比比歪吧歪吧比歪吧卜比歪歪吧吧比吧歪吧歪吧卜比歪歪吧比比歪比吧吧卜比比歪歪比比吧比歪歪卜比吧比比歪歪比比比歪卜比歪歪歪比歪比比吧歪卜比歪歪歪比歪吧吧吧歪卜比歪歪歪比比歪歪比歪卜比比比吧歪比比歪吧吧卜比歪吧歪比比比吧吧比卜比比比吧比吧比吧歪比卜比比比吧歪比歪吧比比卜比歪吧比比比比歪吧歪卜比比歪比吧比吧比歪比卜比吧比吧比歪比吧歪比卜比歪比比歪吧比吧比比卜比歪歪吧吧比吧歪歪吧歪卜比歪歪吧比比歪比吧吧卜比吧歪吧吧吧吧吧比比卜比歪歪歪比歪比比吧歪卜比歪歪歪比歪吧吧吧歪卜比歪歪歪比比歪歪比歪卜比比比吧歪比歪吧比比卜比歪吧比比比比歪吧歪卜比比歪歪比比吧比歪歪卜比吧比比歪歪比比比歪卜比比比吧比吧比吧歪比卜比比比吧歪比比歪吧吧卜比歪吧歪比比比吧吧比卜比比歪比吧比吧比歪比卜比吧比吧比歪比吧歪比卜比歪比吧歪吧吧吧吧比卜比歪歪吧吧比吧歪歪吧歪卜比比比吧歪比比歪吧吧卜比歪吧歪比比比吧吧比卜比比比吧歪比比歪吧吧卜比歪吧歪比比比吧吧比卜比歪歪歪比比比比歪歪卜比吧吧比比吧吧吧比歪卜比比比吧比吧比吧歪比卜比比比吧吧比歪歪歪歪卜比歪歪歪吧比比歪吧比卜比歪吧歪歪吧歪比歪吧卜比比歪比吧比吧比歪比卜比比比吧歪比歪吧比比卜比歪吧比比比比歪吧歪卜比比比吧歪比歪吧比比卜比歪吧比比比比歪吧歪卜比歪歪歪比比比比歪歪卜比吧吧比比吧吧吧比歪卜比比比吧比吧比吧歪比卜比比比吧吧比歪歪歪歪卜比歪歪歪吧比比歪吧比卜比歪吧歪歪吧歪比歪吧卜比比歪歪歪比比歪比比卜比比吧歪吧吧歪比吧吧卜比歪比吧歪比比比比吧卜比吧比吧比吧歪比吧卜比歪比卜比歪比卜比歪吧歪吧比比比歪卜比比比吧歪比歪吧比比卜比歪吧比比比比歪吧歪卜比歪歪歪比歪吧歪歪吧卜比歪歪歪吧比吧比比歪卜比歪歪吧吧歪吧比吧比卜比比比吧比吧比吧歪比卜比歪吧吧比吧比吧比歪卜比吧吧歪歪比吧比比比卜比比歪比吧比吧比歪比卜比歪歪歪吧吧比歪比吧卜比比比吧比吧比吧歪比卜比歪歪歪比歪吧歪歪比卜比歪比吧歪吧吧歪歪比卜比比吧歪吧比比歪比比卜比歪吧歪吧歪吧吧歪歪卜比歪吧歪比比比吧吧比卜比歪歪吧吧比歪歪歪比卜比比比吧比吧比吧歪比卜比歪吧吧吧比吧吧比吧卜比歪比歪比比吧吧比比卜比比比吧比吧比吧歪比卜比吧比吧比比歪吧歪比卜比歪歪吧吧比吧歪歪吧歪卜比比比吧歪比歪吧比比卜比歪吧比比比比歪吧歪卜比歪比比歪吧比吧比比卜比歪歪歪比吧歪比比吧卜比歪歪歪吧比歪歪歪歪卜比歪歪吧比歪比吧吧歪卜比比歪歪比比吧比歪歪卜比比歪吧歪吧歪比吧比卜比歪歪歪吧比吧比比歪卜比歪歪吧吧歪吧比吧比卜比歪歪吧吧比吧歪歪吧歪卜比歪歪歪吧比吧比比歪卜比歪歪吧吧歪吧比吧比卜比歪比比歪吧比吧比比卜比歪歪歪比吧歪比比吧卜比歪歪吧歪吧吧歪吧比卜比歪歪歪比歪吧歪歪比卜比吧歪歪歪吧吧歪歪歪卜比歪歪吧比歪比吧吧歪卜比歪歪歪比比歪吧歪吧卜比歪歪吧歪歪歪吧歪比卜比比歪歪比比吧比歪歪卜比比歪吧歪吧歪比吧比卜比比比吧歪比歪吧比比卜比歪吧比比比比歪吧歪卜比歪比吧歪吧吧歪比比卜比吧歪歪比吧吧歪比比卜比歪比歪比比吧吧比比卜比吧吧歪歪比吧比歪比卜比歪比比歪吧吧比歪吧卜比歪比比歪吧比吧比比卜比比比吧比吧比吧歪比卜比吧比吧比比歪吧歪比卜比歪比比歪吧比歪歪歪卜比歪歪歪比吧歪吧比比卜比歪歪歪比歪吧歪歪比卜比歪歪吧比比歪吧比比卜比吧比歪比歪比歪比歪卜比歪吧歪吧比比比比卜比歪比卜比比歪吧歪比歪吧吧吧卜比歪吧吧吧比比比吧吧卜比比比吧比吧比比比歪卜比歪歪歪吧比吧比吧比卜比歪歪歪比吧吧吧歪歪卜比歪歪歪比比比歪吧歪卜比歪吧比歪歪吧歪吧比卜比歪吧歪吧歪吧歪吧吧卜比吧比吧比吧歪比吧卜比歪比吧歪吧吧歪歪比卜比歪歪歪比吧歪吧比比卜比歪吧吧吧歪吧吧吧比卜比歪歪吧比比吧歪歪吧卜比歪比歪比比吧吧比比卜比歪歪吧吧比吧歪歪吧歪卜比比比吧歪比歪吧比比卜比歪吧比比比比歪吧歪卜比比歪歪比比吧比歪歪卜比比比吧歪比比歪吧吧卜比歪吧歪比比比吧吧比卜比歪歪吧吧歪歪比吧吧卜比比比吧歪比比歪吧吧卜比歪吧歪比比比吧吧比卜比吧歪吧吧吧吧吧比比卜比比比吧歪比歪吧比比卜比歪吧比比比比歪吧歪卜比比歪歪比比吧比歪歪卜比歪吧吧吧比吧吧比吧卜比歪歪歪比歪比比吧歪卜比歪比歪比比比比吧吧卜比歪歪歪比吧歪吧歪比卜比歪歪吧吧比吧歪歪吧歪卜比歪比卜比歪比卜比歪比卜比歪吧歪吧歪吧歪吧吧卜比吧比比吧比比吧歪吧卜比吧比吧卜比歪歪吧吧比吧歪吧歪吧卜比歪吧歪吧比比比歪卜比比吧比比歪比吧比比卜比比歪吧歪比吧吧吧歪卜比歪歪吧比歪比吧吧歪卜比比比比吧歪吧歪歪吧卜比吧比歪比歪吧比歪比卜比歪吧吧比吧吧比吧吧卜比比歪歪歪吧歪歪吧歪卜比歪歪吧吧歪歪比吧吧卜比歪歪歪吧比吧比比歪卜比比吧吧吧吧比吧比比卜比比比吧比吧比吧歪比卜比歪歪比吧比歪吧歪比卜比吧吧比比比歪歪比比卜比吧比比歪比歪吧歪比卜比吧比歪比比歪比比歪卜比歪吧歪吧比比比比卜比歪比吧卜比歪比吧歪吧吧歪歪比卜比歪歪歪比吧歪吧比比卜比歪歪歪比歪吧歪歪比卜比歪比比歪吧吧歪歪歪卜比歪歪比比吧比比歪吧卜比歪歪歪吧比吧歪比歪卜比比比吧比吧比吧歪比卜比歪歪歪比吧歪吧歪比卜比比比比歪比比吧比歪卜比歪歪歪比歪吧歪歪比卜比歪歪比歪比吧吧比吧卜比吧比比歪歪吧歪比吧卜比歪歪歪吧歪比吧歪比卜比吧比吧比吧歪比吧卜比歪比吧歪吧吧歪歪比卜比歪歪歪比吧歪吧比比卜比比比吧吧比歪歪歪歪卜比歪歪吧比比比吧吧歪卜比比比吧比吧比吧歪比卜比歪吧吧比吧比吧比歪卜比歪吧比吧吧歪吧歪吧卜比歪歪吧吧比吧歪歪吧歪卜比歪歪歪比歪吧歪歪比卜比歪歪吧比比比吧吧歪卜比比比吧比吧比吧歪比卜比比歪比歪吧比歪吧比卜比歪比歪吧歪吧歪歪比卜比歪歪吧比比歪比吧吧卜比歪吧吧吧比吧吧比吧卜比歪比歪比吧比比歪比卜比歪比吧吧歪吧比吧比卜比歪歪比比吧歪吧歪吧卜比歪歪歪比吧吧比比歪卜比比吧比吧歪比歪吧比卜比比吧歪歪歪吧吧比歪卜比吧比比歪歪吧歪吧比卜比歪歪吧比比比吧吧吧卜比歪歪吧比比吧歪歪吧卜比歪歪歪比吧吧比比歪卜比比吧比吧歪比歪吧比卜比吧吧吧歪歪歪吧歪比卜比吧比歪歪吧比吧歪吧卜比比比吧比吧比吧歪比卜比歪吧吧吧歪比比比比卜比歪歪吧比比吧歪歪吧卜比吧比吧比比比歪吧歪卜比歪吧比吧歪比比比歪卜比歪歪吧比比比吧歪吧卜比比吧吧吧吧吧歪歪吧卜比歪比吧吧吧吧吧歪吧卜比吧比吧比吧歪比吧卜比歪比卜比歪吧歪吧比比比歪卜比歪吧比比歪吧吧比比卜比吧比歪比歪比比歪吧卜比歪吧歪比吧歪比歪歪卜比歪吧吧比吧比吧吧比卜比歪歪歪比比歪歪比歪卜比歪吧歪吧歪吧歪吧吧卜比吧比比吧比比吧歪吧卜比吧比吧卜比比歪歪歪比比比吧比卜比歪歪歪比歪吧歪歪比卜比歪比吧卜比比歪吧吧卜比比歪吧歪卜比歪吧吧歪卜比比比歪比卜比歪吧吧歪卜比歪比吧比卜比比歪歪歪卜比歪比吧卜比比比吧比吧比吧歪比卜比歪比歪比吧比吧歪歪卜比歪吧吧吧歪比比比比卜比歪比吧比歪比歪比歪卜比歪吧吧吧比吧吧比吧卜比吧比吧比比比吧吧歪卜比歪歪歪比比歪歪比歪卜比比比吧吧歪吧比吧吧卜比比歪歪比比吧比歪歪卜比歪歪比吧比歪比歪比卜比歪吧吧比吧比吧比歪卜比歪吧歪吧歪比吧歪吧卜比歪歪歪比比比歪吧歪卜比吧比比歪歪比吧吧吧卜比吧比比歪歪歪吧吧歪卜比比歪歪歪吧吧比歪歪卜比比比吧吧比吧吧歪歪卜比歪吧歪吧比比比比卜比歪吧比比歪吧吧比比卜比歪歪歪比歪吧歪歪比卜比歪吧吧吧比吧吧比吧卜比歪歪歪比比歪吧比吧卜比歪歪歪比吧歪比比吧卜比歪歪歪比歪比比吧歪卜比歪歪歪比比歪歪比歪卜比歪歪歪吧吧比歪比吧卜比歪比吧歪歪比吧比歪卜比歪歪吧吧比吧歪歪歪吧卜比比歪歪歪比比比吧比卜比歪比比歪吧吧歪吧吧卜比吧吧比比吧吧吧比歪卜比吧吧比吧比吧吧歪比卜比歪歪吧吧比吧歪歪比歪卜比歪歪吧比比吧歪吧吧卜吧比歪歪卜
/ 返回~技术宅真可怕~小组
© 2008-2025 Bangumi (a.k.a.Chobits), some rights reserved | r545
注册时我很沉默

[8]ページ先頭

©2009-2025 Movatter.jp