python上带有ICO的煎饼或如何衡量人和ICO项目

朋友们,下午好。


有一个清晰的认识,即大多数ICO项目本质上是无形资产。 ICO项目不是梅赛德斯-奔驰汽车-不管谁爱与否,它都会开车。 ICO的主要影响力在于人们的心情-对ICO创始人/创始人的态度以及项目本身。


最好以某种方式衡量人们对ICO和/或ICO项目创始人的态度。 完成了 该报告如下。


结果是从互联网(尤其是从Twitter)收集正面/负面情绪的工具。


我的环境是Windows 10 x64,在Anaconda 5.1.0(有线网络连接)的Spyder编辑器中使用了Python 3语言。


资料收集


我会从Twitter帖子中得到一些心情。 首先,我将了解ICO的创始人现在正在做什么,以及他们如何以一对著名人物为例对此做出积极回应。


我将使用python tweepy库。 要使用Twitter,您需要在其中注册为开发人员,请参阅twitter / 。 获取Twitter访问条件。


代码如下:


import tweepy API_KEY = "vvvvEXQWhuF1fhAqAtoXRrrrr" API_SECRET = "vvvv30kspvqiezyPc26JafhRjRiZH3K12SGNgT0Ndsqu17rrrr" ACCESS_TOKEN = "vvvv712098-WBn6rZR4lXsnZCwcuU0aOsRkENSGpw2lppArrrr" ACCESS_TOKEN_SECRET = "vvvvlG7APRc5yGiWY5xFKfIGpqkHnXAvuwwVzMwyyrrrr" auth = tweepy.OAuthHandler(API_KEY, API_SECRET) auth.set_access_token(ACCESS_TOKEN, ACCESS_TOKEN_SECRET) api = tweepy.API(auth) 

现在,我们可以转向Twitter API并从中获取一些东西,反之亦然。 这件事是在八月初完成的。 您需要获得一些推特才能找到创始人的当前项目。 像这样搜索:


 import pandas as pd searchstring = searchinfo+' -filter:retweets' results = pd.DataFrame() coursor = tweepy.Cursor(api.search, q=searchstring, since="2018-07-07", lang="en", count = 500) for tweet in coursor.items(): my_series = pd.Series([str(tweet.id), tweet.created_at, tweet.text, tweet.retweeted], index=['id', 'title', 'text', 'retweeted']) result = pd.DataFrame(my_series).transpose() results = results.append(result, ignore_index = True) results.to_excel('results.xlsx') 

在searchinfo中,我们替换必要的名称并转发。 结果保存到results.xlsx excel。


有创意


然后我决定做一个创意。 我们需要找到创始人的项目。 项目名称是专有名称,并且大写。 假设在每个推文中都写上大写字母,这似乎是正确的:1)创始人的姓名,2)他的项目的名称,3)推文的第一个单词,以及4)无关的单词。 单词1和2经常在推文上找到,而单词3和4很少见,在频率上我们分别是3和4并淘汰。 是的,事实证明,这些链接通常会在推文中出现,5)我们也将其删除。


原来是这样的:


 import re import nltk nltk.download('stopwords') from nltk.corpus import stopwords from nltk.stem.porter import PorterStemmer corpus = [] for i in range(0, len(results.index)): review1 = [] mystr = results['text'][i] # 1)    2)    mystr = re.sub(searchinfo, ' ', mystr) searchinfo1 = searchinfo.replace(" ","_") mystr = re.sub(searchinfo1, ' ', mystr) # 3) splitted_text = mystr.split() mystr="" for word in splitted_text: # 7  if len(word)>6: if word.find('https:/')==-1 and word.find('http://')==-1: mystr = mystr+' '+word else: mystr = mystr+' '+word review = re.sub('[^a-zA-Z]', ' ', mystr) review = review.split() for word in review: if word[0].isupper(): review1.append(word.lower()) ps = PorterStemmer() review1 = [ps.stem(word) for word in review1 if not word in set(stopwords.words('english'))] review1 = ' '.join(review1) corpus.append(review1) from sklearn.feature_extraction.text import CountVectorizer cv = CountVectorizer() X = cv.fit_transform(corpus).toarray() names = cv.get_feature_names() 

创意数据分析


在名称变量中,我们有单词,在变量X中,我们提到了他们的位置。 表X“关闭”-获取引用数。 我们删除很少提及的单词。 保存到Excel。 在Excel中,我们制作了漂亮的条形图,其中包含有关在每个查询中多久提及一次单词的信息。


我们的超级ICO明星是Le Minh Tam和Mike Novogratz。 图表:


图片


可以看出,Le Minh Tam与“ ceo,crypto,mine,sky”有关。 还有一点“消失,资金,百万”。


图片


可以看出Mike Novogratz与“银行,比特币,加密货币,数字,星系”有关。


来自X的数据可以注入到神经网络中,并且可以学习确定任何内容,但是您可以:


资料分析


然后我们停下来 鬼混 有创造力,并开始使用python TextBlob库。 图书馆是多么出色的奇迹。


聪明的人说她可以:


  1. 重点词组
  2. 做零件标记
  3. 分析情绪(这对下面的我们很有用),
  4. 做分类(朴素贝叶斯,决策树),
  5. 使用Google翻译翻译和定义语言,
  6. 进行标记化(将文本分成单词和句子),
  7. 确定单词和短语的频率,
  8. 做解析
  9. 检测n元语法
  10. 做\揭示词的变化\偏斜\词的共轭(复数和单数)和词素化,
  11. 正确的拼写。

该库允许您通过扩展添加新的模型或语言,并具有WordNet集成。 简而言之,NLP是个神童


我们将搜索结果保存到上面的results.xlsx文件中。 下载它并通过TextBlob库进行评估,以进行情绪评估:


 from textblob import TextBlob results = pd.read_excel('results.xlsx') polarity = 0 for i in range(0, len(results.index)): polarity += TextBlob(results['text'][i]).sentiment.polarity print(polarity/i) 

太好了! 几行代码和一声巨响。


结果概述


事实证明,在2018年8月开始,在查询“ Le Minh Tam”上找到的推文显示出某些负面影响,其平均评分为所有推文减0.13 。 如果我们自己看这些推文,那么我们将看到例如“加密货币矿业首席执行官说将以3500万美元的资金消失。


迈克·诺沃格拉茨(Mike Novogratz)的朋友所做的事情在推文中得到了积极的反映,所有推文的平均评分加0.03 。 您可以对其进行解释,以便所有内容都能平稳地前进。


攻击计划


出于ICO评估的目的,有必要从多个来源监视有关ICO创始人和ICO本身的信息。 例如:



计划监视一个ICO:


  1. 创建ICO创始人名称和ICO本身的列表,
  2. 我们创建了用于监控的资源列表,
  3. 我们制作了一个机器人,该机器人从1的每一行收集数据-从2的每个资源收集数据,例如,
  4. 我们制作了一个机器人,每3个机器人就会进行一次评估,上面的示例
  5. 保存结果4(和3),
  6. 每小时自动重复3-5步,评估结果可以发布/发送/保存在某处,
  7. 我们会自动监视第6段中评估的变化情况。如果第6段中评估中有变化情况,这是一个以专家方式对正在发生的情况进行进一步研究的机会。 引起恐慌,反之亦然。

好吧,像那样。


PS好吧,或者在这里购买此信​​息,例如thomsonreuters

Source: https://habr.com/ru/post/zh-CN424465/


All Articles