从数据科学角度来改进这个已经非常完美的程序

看完了整个思路并试着跑了一下，首先是很钦佩作者的思路和执行力的，这里提几个可以优化的点，我也正在试着去优化。
## 数据获取
1. Twitter 真实粉丝数据: 一些成熟的工具已经给出了真实粉丝的占比, 这个可以快速筛选过滤一些人为制作的账号;
2. 关注者列表权重: 一般来说一个账户的粉丝中, 如果出现了 10k - 1M 粉丝量的大 KOL, 又或者存在特定领域的名人, 可以爬虫获取并增加权重;
3. 交互数据: 常见的数据包含平均推文的互动数, 发推文的频率;
4. 跨链金额/链上资产: 这个非常有趣, 我试着跑了一下, 将所有单次跨到 base 链上资产超过 1eth, 且 base 总资产 >= 5eth 的用户过滤后, 收益会有极显著的提升, 可以理解为这些人一般都会去购买自己的 share;
5. mempool 数据: MEV 模式的套利模型需要从交易池中稳定获取数据

## 处理方式
1. 统计学: 直接手动设置参数, 很有效, 至少我目前就是这么做的;
2. light gbm 模型: 对于 twitter 号质量的基础分类器在 GitHub 上有很多, 账号的权重很容易求得;
3. white list: 其实我看到代码里已经有一部分这方面的内容, 不过还有一种思路是, 将关联用户也添加到 white list 中, 比如 A 和 B 都属于高权重用户, 二者在 twitter 上互关, 那么 white list 更新就可以将更多人一次性加入, 类似于聚类

暂时就想到这些, 还是要感谢一下作者!

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

从数据科学角度来改进这个已经非常完美的程序 #5

数据获取

处理方式

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

从数据科学角度来改进这个已经非常完美的程序 #5

Description

数据获取

处理方式

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions